hadoop
文章平均质量分 84
andie_guo
爱好Java编程、Android App开发、J2EE网站开发、Hadoop大数据,希望与在相同开发方向的攻城狮们相互交流
展开
-
【Hadoop基础教程】5、Hadoop之单词计数
单词计数是最简单也是最能体现MapReduce思想的程序之一,可以称为MapReduce版“Hello World”,该程序的完整代码可以在Hadoop安装包的src/example目录下找到。单词计数主要完成的功能:统计一系列文本文件中每个单词出现的次数,如下图所示。本blog将通过分析WordCount源码来帮助大家摸清MapReduce程序的基本结构和运行机制。原创 2015-03-04 09:33:53 · 8612 阅读 · 2 评论 -
【Hadoop基础教程】3、Hadoop之伪分布式环境搭建
伪分布式模式即单节点集群模式,所有的守护进程都运行在同一台机器上。这种模式下增加了代码调试功能,可以查看内存、HDFS文件系统的输入/输出,以及与其他守护进程交互。以hadoop用户远程登录K-Master服务器,在单机模式安装的基础上,我们增加对core-site.xml、hdfs-site.xml、mapred-site.xml核心文件的配置步骤。开发环境硬件环境:Centos 6.5 服务器4原创 2015-03-05 18:42:23 · 2174 阅读 · 1 评论 -
【Hadoop基础教程】1、Hadoop之服务器基础环境搭建
开发环境1安装环境2 用户配置2 sudo权限配置3 网络配置4 关闭防火墙5 安装JDK工具您可能喜欢本blog以K-Master服务器基础环境配置为例分别演示用户配置、sudo权限配置、网路配置、关闭防火墙、安装JDK工具等。用户需参照以下步骤完成KVMSlave1~KVMSlave3服务器的基础环境配置。开发环境硬件环境:Centos 6.5 服务器4台(一台为Mas原创 2015-03-05 18:43:06 · 4047 阅读 · 1 评论 -
【Hadoop基础教程】2、Hadoop之单机模式搭建
单机模式所需要的系统资源是最少的,这种安装模式下,Hadoop的core-site.xml、mapred-site.xml、hdfs-site.xml配置文件均为空。默认情况下,官方hadoop-1.2.1.tar.gz文件默认使用的就是单机安装模式。当配置文件为空时,Hadoop完全运行在本地,不与其他节点交互,也不使用Hadoop文件系统,不加载任何守护进程,该模式主要用于开发调试MapRedu原创 2015-03-05 18:43:52 · 2641 阅读 · 1 评论 -
【Hadoop基础教程】4、Hadoop之完全分布式环境搭建
上一篇blog我们完成了Hadoop伪分布式环境的搭建,伪分布式模式也叫单节点集群模式, NameNode、SecondaryNameNode、DataNode、JobTracker、TaskTracker所有的守护进程全部运行在K-Master节点之上。在本篇blog我们将搭建完全分布式环境,运行NameNode、SecondaryNameNode、JobTracker守护进程在主节点上,运行Da原创 2015-03-05 18:44:57 · 5477 阅读 · 4 评论 -
【Hadoop基础教程】9、Hadoop之倒排索引
倒排索引是文档检索系统中最常用的数据结构,被广泛用于全文搜索引擎。它主要是用来存储某个单词(或词组)在一个文档或一组文档的存储位置的映射,即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容,而是进行了相反的操作(根据关键字来查找文档),因而称为倒排索引(Inverted Index)。通常情况下,倒排索引由一个单词(词组)以及相关的文档列表(标示文档的ID号,或者是指定文档所在位置的URI)原创 2015-03-05 19:03:15 · 8649 阅读 · 1 评论 -
【Hadoop基础教程】6、Hadoop之单表关联查询
本blog主要通过输入文件中的child字段和parent字段进行单表关联查询,推导出哪些用户具有child与grandparent关系。开发环境硬件环境:Centos 6.5 服务器4台(一台为Master节点,三台为Slave节点) 软件环境:Java 1.7.0_45、hadoop-1.2.11、 输入数据分析输入文件数据示例:原创 2015-03-04 09:48:36 · 3835 阅读 · 1 评论 -
【Hadoop基础教程】7、Hadoop之一对一关联查询
我们都知道一个地址拥有着多家公司,本案例将通过两种类型输入文件:address类(地址)和company类(公司)进行一对多的关联查询,得到地址名(例如:Beijing)与公司名(例如:Beijing JD、Beijing Red Star)的关联信息。 开发环境 硬件环境:Centos 6.5 服务器4台(一台为Master节点,三台为Slave节点) 软件环境:Java 1.7.0_45、hadoop原创 2015-03-06 08:52:40 · 2663 阅读 · 0 评论