大数据之Hadoop
Q-WHai
O ever youthful,O ever weeping.
展开
-
Hadoop的学习前奏(二)——Hadoop集群的配置
Hadoop集群的配置即完全分布式Hadoop配置。本文的实验是基于伪分布式Hadoop环境的。这里默认你的系统已经可以安装伪分布式的Hadoop了。如果你的系统还不能安装伪分布式Hadoop,请参考《Hadoop的学习前奏——在Linux上安装与配置Hadoop》一文完成配置。原创 2015-07-24 19:17:58 · 4378 阅读 · 0 评论 -
Hadoop 2.2.0 集群搭建
在前面我有写过关于 Hadoop 集群的搭建,不过之前的 Hadoop 是 1.x 版本的。目前是基于 2.x 版本的 Hadoop,与之前的 1.x 版本的差别还是挺大的。以及更为详细的 SSH 免密码互连登录的配置过程。所以,这里也把我搭建的过程记录下来了。希望于你有益。原创 2016-05-04 17:56:18 · 12118 阅读 · 1 评论 -
MapReduce进阶:多路径输入输出
当我们得意于 MapReduce 从一个数据输入目录,把数据经过程序处理之后输出到另一个目录时。可能你正在错过一些更好的方案,因为 MapReduce 是支持多路径的输入与输出的。比如,你一个项目中的多个 Job 产生了多个输出路径,后面又需要另一个 Job 去处理这些不路径下的数据。你要怎么办?暂停程序后,手动处理?看完本文,我想你会给你的这种想法来上一记耳光。原创 2016-06-18 21:29:50 · 6508 阅读 · 0 评论 -
MapReduce进阶:多MapReduce的链式模式
我们不可能一直沉浸在 WordCount 的成功运行当中,就像之前学习 Java 或是其他编程语言不会着迷于 HelloWord 一样。前面的 WordCount 程序只有一个 Mapper 和一个 Reducer 参与,也就是说只有一个 Job 参与。而一个 Job 在通常情况下是无法满足实际的开发需求,我们需要有更多的 Job 参与其中,并贡献自己的力量。原创 2016-06-18 16:20:50 · 4692 阅读 · 0 评论 -
从 WordCount 到文档的倒排索引详解
在很多大数据的应用场景中我们都有可能看到倒排索引的身影,我第一次接触倒排索引是在学习 Lucene 全文检索框架的时候。本文会从倒排索引开始说明,再补充讲解倒排索引文档及带权重的倒排索引文档。原创 2016-06-13 18:10:13 · 10816 阅读 · 0 评论 -
Hadoop 核心编程之 HDFS 的文件操作
本文以代码为主,并附以简短的说明,帮助你理解代码的逻辑,以及一些注意事项。你可以将本文的代码封装成一个工具类,这样以后需要调用时候,就可以复用了。原创 2016-06-21 16:37:45 · 4626 阅读 · 2 评论 -
HBase Shell 的基本操作
前面写了一些 Hadoop, Zookeeper 及 Hbase 分布式环境搭建的文章。或许你在搭建的过程中遇到了一些不如意的事情,但我相信总是可以解决的。如果你已经完成了环境的搭建,那么就可以尽情玩耍了。原创 2016-06-12 15:10:45 · 6920 阅读 · 0 评论 -
HBase 0.98 分布式集群安装详解
这篇博客应该很早就发表了,只是当时环境搭建好了之后没有及时做笔记,后来又不想重新搭建,所以才拖到今天。还有就是这篇博客安装的是 Hbase-0.98 的版本,与之前说要安装 0.96 的说明不吻合,这里统一说明,之前的博客就不更改了。还有一点就是,本文的安装过程很顺,没有出现什么启动不了,或是运行异常的行为。如果你在安装的过程出现了一些不好的事情,那么你可能会在本文中找到一些蛛丝马迹,也可能一无所获。只是我希望你可以原创 2016-06-08 00:02:00 · 5973 阅读 · 0 评论 -
ZooKeeper 3.4.5 分布式环境搭建详解
上一篇中,我们说到了关于 Hadoop-2.2.0 集群的搭建。在这个系列中,Zookeeper 是必不可少的。本文会介绍 Zookeeper-3.4.5 的安装,后面会介绍 HBase-0.96 的安装。希望于你有益。原创 2016-05-18 17:25:13 · 7478 阅读 · 0 评论 -
MapReduce 应用:TF-IDF 分布式实现
本文要说的 TF-IDF 分布式实现,运用了很多之前 MapReduce 的核心知识点。算是 MapReduce 的一个小应用吧。原创 2016-06-24 00:29:45 · 9612 阅读 · 3 评论 -
从 WordCount 到 MapReduce 计算模型
虽然现在都在说大内存时代,不过内存的发展怎么也跟不上数据的步伐吧。所以,我们就要想办法减小数据量。这里说的减小可不是真的减小数据量,而是让数据分散开来。分开存储、分开计算。这就是 MapReduce 分布式的核心。原创 2016-05-10 23:42:47 · 11946 阅读 · 0 评论 -
Hadoop的学习前奏(一)——在Linux上安装与配置Hadoop
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。本文就先从安装与配置入手吧。原创 2015-07-21 12:02:08 · 3730 阅读 · 0 评论 -
第一个Hadoop程序——WordCount
通过前面两篇博客的学习,我们学习了Hadoop的伪分布式部署和完全分布式部署。这一篇文章就来介绍一下Hadoop的第一个程序WordCount。以及在运行代码的过程中遇到的问题。原创 2015-07-24 19:22:55 · 6765 阅读 · 0 评论 -
MapReduce 进阶:Partitioner 组件
Partitioner 组件可以让 Map 对 Key 进行分区,从而将不同分区的 Key 交由不同的 Reduce 处理。如果这么说让你觉得有一些笼统的话,那么本文可能很适合你,因为本文会依据一个具体的实例进行讲解。原创 2016-06-21 23:47:47 · 14823 阅读 · 0 评论