- 博客(33)
- 资源 (1)
- 收藏
- 关注
原创 Python爬虫学习笔记
结构安排一至十八是第一部分;十九至二十六是第二部分。一、大数据时代的挑战数据抽取、转换、存储 (Data ETL)原始资料:Raw DataETL脚本:ETL Scipt结构化数据:Tidy Data二、非结构化数据处理与网络爬虫网页链接器(Web Connector)向目标网页发出请求(request);目标网页将响应(response)发送给网页链接器(Web Connector);
2017-02-07 14:08:03 2751 1
原创 Hadoop学习笔记2
Hadoop 2.x产生背景Hadoop 1.0种的HDFS和MR在高可用、扩展性等方面存在问题;HDFS存在的问题: NameNode单点故障,难以应用于在线场景;NameNode压力过大,且内存受限,影响系统扩展性。MR存在的问题: JobTracker访问压力大,影响系统扩展性;难以支持除MR之外的计算框架,比如Spark、Storm等。* Hadoop 1.x 与 Hadoo
2017-02-06 21:15:11 396
原创 Hadoop学习笔记1
Hadoop部署方式本地模式伪分布模式(在一台机器中模拟,让所有进程在一台机器上运行)集群模式 服务器只是一堆废铁而已,上面跑了tomcat,我们叫它web服务器;上面跑了mysql,我们叫它数据库服务器。所以不同服务器只是上面跑的进程(或者说程序)不同,我们是根据它们跑的进程来命名它们分别叫什么服务器的。宿主机(windows)和客户机(linux)之间通信host-only:宿主机与
2017-02-02 22:02:28 1506
原创 Mac的开发者基础配置
AppStore 更新应用时,AppleID登录不了报错:this action could not be completed,try again解决办法:终端输入sudo mkdir -p /Users/Sharedsudo chown root:wheel /Users/Sharedsudo chmod -R 1777 /Users/Shared参考链接一、
2016-11-06 21:04:03 5754 6
原创 ubantu的一些配置、安装软件等问题汇集此篇
整篇文章参考了一些网上的文档、百度百科、网友博客。特此感谢。1)sudo apt-get install build-essentialbuild-essential是一个软件包,它的作用是提供编译程序必须软件包的列表信息。编译程序有了这个软件包,它才知道头文件在哪、库函数在哪。2)sudo apt-get install gdbgdb是一个调试工具,是一个基于命令行的调试工具
2016-01-16 21:13:56 10894 1
原创 git报错 “error: RPC failed; curl 18 transfer closed with outstanding read data remaining”
报错详情error: RPC failed; curl 18 transfer closed with outstanding read data remaining fatal: The remote end hung up unexpectedly fatal: early EOF fatal: index-pack failed如果 git 项目太大,拉代码的时候可能会出现这个错误。错误
2018-03-02 11:11:14 7693 2
原创 ycmd 的安装和 EMACS 对应配置
之前写过 YouCompleteMe(以下简称ycm) 的研究和配置,但是 ycm 只能用于 vim。如果其他编辑器比如 EMACS、vscode 等想用这种补全机制的话,该怎么办呢?鉴于这个需求,ycm 的作者又重新开了个项目(该项目便是 ycmd),以便让其他编辑器也可以用上这种补全机制。那么这种补全机制是什么机制呢?说到底就是 client-server 模式。真正基于 libclang 的语
2017-12-31 11:11:01 2892
原创 openjdk7 源码下载
获取 OpenJDK 源码大致有两种方式通过 Mercurial 代码版本管理工具从 Repository 中直接取得源码 但是这个需要先装 hg(brew install hg),然后hg fclone http://hg.openjdk.java.net/jdk7/jdk7,可是我不想装hg。从网站上下载:http://download.java.net/openjdk/jdk7
2017-10-20 19:05:23 5620 20
原创 NeoVim/SpaceVim初体验
安装curl -sLf https://spacevim.org/install.sh | bash 具体见其GitHub官网安装过程发生了什么呢?具体来说就是安装 SpaceVim 的过程中,它对 vim/neovim 以及 vim/neovim 的配置文件、插件等做了什么?具体看下图,一目了然。配置时注意事项摘自其 GitHub 官网原话:SpaceVim load custom conf
2017-08-17 20:54:39 24839
原创 try-with-resource小demo遇到的一些小问题
开发环境报错用的 IDE 是 Intellij-IDEA。Error:java: Compilation failed: internal java compiler error解决思路和步骤:首先尝试了把 project 的 module settings 改一下。于是右键项目,单击open module settings,把能改的地方都改成java8。改完这三个地方...
2017-08-05 23:38:13 2285
转载 换个角度看Docker
docker学习最大的障碍,不是网上的资源太少,而是网上的资源太多,资源太多带来的噪声让学习效率降低不少。而在讲解docker原理上,所有的讲解都是关于cgroups,namespace,aufs以及deviceMapper,这对于一个初学者来说,就是用一堆名词替换另一堆名词。在这篇解析中,将不会讨论:一堆堆砌在一起的专有名词,让阅读者云里雾里一大堆写满了专有名词的图,但是不给太多解释这篇解析
2017-07-31 15:43:07 372
转载 C/C++ 文件读写操作总结
在编程的过程中,文件的操作是一个经常用到的问题,在C++Builder中,可以使用多种方法对文件操作,下面我就按以下几个部分对此作详细介绍,就是:1、基于C的文件操作;2、基于C++的文件操作;3、基于WINAPI的文件操作;4、基于BCB库的文件操作;5、特殊文件的操作。壹、基于C的文件操作 在ANSI C中,对文件的操作分为两种方式,即流式文件操作和I/O文件操作,下面就分别介绍之。一、
2017-03-05 12:19:17 442
转载 MapReduce:详解Shuffle过程
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里
2017-02-04 16:34:25 246
原创 git的一些问题
删除github上的远程分支Git push origin 【空格】【冒号】【分支名】比如我github上有master和feature分支,我现在想着删除feature分支,命令如下:git push origin :featureok,这样你github上的远程分支就被删除了。别问为什么,就是删除了!!!常见的git一条龙//机器自报家门git config --global user.nam
2017-01-18 22:39:14 359
转载 函数式中的Currying
currying 是函数式语言中经常遇到的一个概念,翻译成柯里化,不是库里化。currying 指的是将接收多个参数的函数变换成接收一个单一参数,并且返回接收余下的参数而且返回结果的新函数的技术。说起来比较拗口,直接看下面的代码。def add(x: Int, y: Int): Int = x + y//call addadd(1, 2)add(3, 4)但是如果我们使用 currying 的写
2017-01-10 12:55:18 542
原创 Windows启动项彻底控制
需求win下有些程序老是开机自启动,很操蛋的,再不用360管家等这些东西的情况下,如何彻底地控制开机启动项呢?解决办法win下有一共有4个地方控制开机启动项:任务管理器 -> 启动我的电脑 -> 管理 -> 服务我的电脑 -> 管理 -> 任务计划程序注册表项下面一个一个来唠!任务管理器 -> 启动这个是最简单最快捷的,找到任务管理器 -> 启动后,对着不希望开机自启动的东东右键一点、禁用
2016-12-17 20:44:43 1394
原创 利用grub2.0/grub4dos实现双硬盘双(多)系统
前奏背景老式(联想Y460,2011年)的电脑了,想加一个固态硬盘,并把光驱位改造一下让它能放磁盘。 这里将称呼原来的磁盘位为“主盘”,光驱位置的磁盘称为“副盘”。需求主盘是Windows,副盘是Linux主盘是Windows,副盘是Windows主盘是Linux,副盘是Windows 这种情况下比较简单,因为Ubuntu平台有个强大的grub图形界面工具,叫做grub-custom
2016-12-14 16:09:15 5968
原创 Matplotlib学习笔记
未完待续。。。。。。Matplotlib有三种使用方式:pyplot:经典高层封装pylab:将Matplotlib和Numpy合并的模块,模拟Matlab的编程环境OO的方式:Matplotlib的精髓,更基础和底层的方式三种方式的优劣pyplot:简单易用,交互使用时方便,可以根据命令实时作图。但底层定制能力不足pylab:完全封装,环境最接近Matlab,不推荐使用 pylab
2016-12-10 22:53:06 393
原创 新装Ubuntu16.04系统,安装软件和配置环境速查表
新装的Ubuntu16.04系统,安装软件和配置环境列表。这里只列大致,详细的请看另一篇博客: ubantu的一些配置、安装软件等问题汇集此篇 解决驱动问题系统设置 => 软件和更新 => 附加驱动: 以我自己的电脑为例如图所示,选择专用驱动sudo apt-get install intel-microcode打开NVIDIA X Server Settings(系统自带)如图,设置成集显
2016-12-05 23:22:50 1290
原创 Emacs的折腾和配置
比较麻烦,未完待续emacs报错:Symbol's function definition is void: cl-struct-define背景及报错产生本来是emacs25的版本,然后配置好了配置文件,安装好了插件;后来感觉25版本越用越卡,想换回24版本;于是乎直接换了24版本,而.emacs.d没有做任何改动,启动24后,报错,如图:解决办法后来在emacs的stackexchange社区找
2016-11-30 22:04:45 2503
原创 Ruby的杂项
gem安装报错gem install rails报错如下: ERROR: Could not find a valid gem 'rails' (>= 0), here is why:Unable to download data from https://rubygems.org/ - Errno::ETIMEDOUT: Connection timed out - connect(2) for
2016-11-19 18:40:04 1204
原创 Python的杂项
jupyter notebook设置默认工作目录终端输入命令jupyter notebook --generate-config可以在家目录下看到生成的配置文件进入.jupyter目录,找到配置文件jupyter_notebook_config.py修改配置文件将图中红框的内容改成自己想要的目录即可。python包管理工具之间的关系梳理(这部分内容整理自知乎一些回答和一些博客)python由
2016-10-29 12:34:16 3111
原创 YouCompleteMe折腾配置以及clang+llvm编译安装
比较麻烦,未完待续。。。。。。VIM强调三个概念:A buffer is the in-memory text of a file. A window is a viewport on a buffer.A tab page is a collection of windows. 列出 增加 删除 选择/切换 退出 其他 buffer :ls :buffers
2016-09-07 22:36:44 10524 1
原创 数据库三范式通俗说法,书上说的太蛋疼
简单来说三句话:1NF、列不可分;2NF、不存在部分依赖;3NF、不存在传递依赖。解释:1NF:原子性,即字段不可以再分。2NF:唯一性,不可以把多种数据保存在同一张表中,即一张表只能保存“一种”数据。不符合第二范式的表:学号, 姓名, 年龄, 课程名称, 成绩, 学分; 可能会存在问题:数据冗余,每条记录都含有相同信息; 删除异
2016-04-17 18:16:15 27441 4
原创 【探讨】C++ delete[] 是如何知道数组大小的
该问题值得探讨!先贴自己的测试代码、反汇编以及内存转储图(测试环境:CodeBlocks、编译器GCC、系统64位)【分别测试了数组大小为3和5的情况】从内存转储可以看到,GCC其实并不是像网友说的那样,通过指针偏移、额外开辟8字节空间来存储长度。具体是怎么做到的,目前我也不知道。有待探讨。【下面贴出几个在知乎上看到的我觉
2016-04-16 15:04:27 2988
转载 java类型与mysql类型对应表
类型名称显示长度数据库类型JAVA类型JDBC类型索引(int) VARCHARL+NVARCHARjava.lang.String12 CHARNCHARjava.lang.String1 BLOBL+NBLOBjava.lang.byte[]
2016-04-12 20:56:42 828
转载 (转)73条日常Linux shell命令
1.检查远程端口是否对bash开放:echo >/dev/tcp/8.8.8.8/53 && echo "open"2.让进程转入后台:Ctrl + z3、将进程转到前台:fg4.产生随机的十六进制数,其中n是字符数:openssl rand -hex n5.在当前shell里执行一个文件里的命令:source
2016-03-24 13:11:17 453
转载 (转)探索 .git 目录,让你真正了理解git
新人刚使用 git 的时候,就像去到一个既不识当地文字也不会说当地语言的陌生的国家。只要你知道你在什么地方、要去哪里,一切都 OK,而一旦你迷路,麻烦就来了。网上已经有许多关于学习基本的 git 命令的文章,但是本文不属于这一类,而是尝试另辟蹊径。新手总是被 git 吓到,事实上也很难不被吓到。可以肯定的是 git 是很强大的工具但还不够
2016-03-24 13:09:34 543
转载 (转)git相关的基本操作都在此篇
Git小助手Git 命令速查表1、常用的Git命令命令简要说明git add添加至暂存区git add–interactive交互式添加git apply应用补丁git am
2016-03-24 13:08:30 792
转载 (转)Java集合框架:HashMap
Java集合框架概述 Java集合框架无论是在工作、学习、面试中都会经常涉及到,相信各位也并不陌生,其强大也不用多说,博主最近翻阅java集合框架的源码以及搜索一些相关资料整理出Java集合框架的系列。一方面是做一个总结,方便以后查阅,另一方面希望各位小伙伴能够提出不足之处,我会及时更新修改。 博主从网上抠了一张图,觉得画得还是比较形象的,给大家参考一下。 上述类图
2016-03-24 13:03:37 585
转载 (转)浅析Java中的final关键字
浅析Java中的final关键字 谈到final关键字,想必很多人都不陌生,在使用匿名内部类的时候可能会经常用到final关键字。另外,Java中的String类就是一个final类,那么今天我们就来了解final这个关键字的用法。下面是本文的目录大纲: 一.final关键字的基本用法 二.深入理解final关键字 若有不正之处,请多多谅解并欢迎指正。
2016-03-24 13:01:17 435
原创 对C指针的深入理解
指针是一片内存开始的地址,但是定义指针的时候却往往要加上类型。例如:int *p;而且指针指向的数据的类型和声明还要匹配(C标准不匹配可以编译通过且可以运行;C++标准不匹配编译报错)。于是就激发了我研究为何要这样规定的兴趣。经过研究和实验,发现了原因,并且也加深了对指针的理解!!!下面一一道来。先上结论:声明指针所指向的数据的类型,其实就是告诉计算机一次读多少字节以及
2016-01-28 23:07:56 748
原创 IDE或者编辑器的一些细节配置
此篇博客记录在平时遇到的一些很常见的配置问题。Eclipse CDT一、环境搭建二、使用GNU make builder而不是CDT内置的CDT internal builder对着项目点右键,然后点“properties”,弹出如下的框,接着按照红框内操作这时候,会提示一个错误,说找不到“make”解决办法:去到mingw的bin目录下,找到“mingw32-make.exe”,复制粘贴,并重命...
2016-01-16 11:55:59 891
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人