大数据
闲庭细步
我生本无乡,心安是归处。
展开
-
慢慢数据抓取路,从BeautifulSoup走起
今天装Qt开发包时遇到了一个问题,确实Xlib包,解决方案: http://blog.csdn.net/a1252433913/article/details/8061809,Mark一下。 python太简便了,版本问题让人十分不爽,装pyquery、Ghost.py各种不顺。 一篇很好的关于Ghost.py的介绍原创 2015-11-09 10:46:21 · 691 阅读 · 0 评论 -
我的大数据之路(一)
开始做公司的数据平台了,真心喜欢这个玩意儿。先从基础理论开始学吧,数据挖掘,web语义分析,分词算法。。。原创 2015-07-22 21:57:42 · 1778 阅读 · 0 评论 -
我的大数据之路(二):从zookeeper说起
由于zookeeper在hadoop中只是扮演一个应用程序协调服务的角色,提高hdfs和hbase集群节点的稳定和高效性,所以这里只捡些重要的点来说。后面再来补齐源码分析。 1、fast-paxos算法(选举算法) 基本的原理是每个节点都充当自己的推荐人推荐自己当leader,如果有别的候选者的评分比自己高则推荐评分高的znode(评分一般提取znode的zxid或者最后修改时间),最后选出一原创 2016-02-23 23:15:16 · 732 阅读 · 0 评论 -
我的大数据之路(三):HDFS文件系统
数据块(block):大文件会被分割成多个block进行存储,block大小默认为64MB。每一个block会在多个datanode上存储多份副本,默认是3份 namenode:namenode负责管理文件目录、文件和block的对应关系以及block和datanode的对应关系。 datanode:datanode就负责存储了,当然大部分容错机制都是在datanode上实现的。 元数原创 2016-02-24 00:05:44 · 763 阅读 · 0 评论 -
在windows中安装Hadoop
第一步:安装cygwin,运行在window上的Unix模拟软件 在https://cygwin.com/install.html下载cygwin软件。 Net Catagory:openssl, openssh Base Category:sed Devel Category:subversion 安装完成:原创 2016-02-28 16:14:23 · 573 阅读 · 0 评论