![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
进击的搬砖工
这个作者很懒,什么都没留下…
展开
-
从技术角度入门Hadoop
Hadoop这个名字不是一个缩写,它是一个虚构的名字。该项目的创建者,Doug Cutting这样解释Hadoop的得名:"这个名字是我孩子给一个棕黄色的大象样子的填充玩具命名的。我的命名标准就是简短,容易发音和拼写,没有太多的意义,并且不会被用于别处。小孩子是这方面的高手。”Hadoop是[b]适合海量数据的分布式存储和计算平台[/b]。它可以用来处理比较小的只有几十K,几十M的数据,但...2014-07-31 10:06:39 · 96 阅读 · 0 评论 -
那些安装Hadoop遇到的坑
自从入手了Mac之后,迫不及待的部署了Hadoop伪分布模式,以为按照文档一步一步来即可,谁知过程还是遇到了好多坑。。。1.[b]编译Hadoop-2.6.0源码[/b]a. Mac默认jdk位置在 /Library/Java/JavaVirtualMachines/jdk1.7.0_75.jdk/Contents/Home/bin/,但还是要设置环境变量,或者自己下个,用系统的感觉目录组...2015-04-04 11:25:31 · 317 阅读 · 0 评论 -
用Hadoop分析专利数据集
要想让Hadoop做的工作有意义就需要耐人寻味的数据。大家可以到[url]http://www.nber.org/patents/[/url]上下载专利数据集。本文使用了专利引用数据集cite75_99.txt.这个数据集约有250MB,虽然没有一个真正的集群,但这个数据量的数据足以让我们心情澎湃的去练习MapReduce。而且一个流行的开发策略是为生产环境中的大数据集建立一个较小的,抽样的数...2015-04-13 10:33:22 · 588 阅读 · 0 评论 -
分布式服务框架 Zookeeper
zookeeper介绍zookeeper是一个为分布式应用提供一致性服务的软件,它是开源的Hadoop项目中的一个子项目,主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等zookeeper安装和使用Zookeeper 的安装非常简单,下面将从单机模式和集群模式两个方面介绍 Zookeeper 的安装和配置。 单机...2014-11-29 16:02:39 · 85 阅读 · 0 评论