Hadoop
文章平均质量分 92
shihlei
这个作者很懒,什么都没留下…
展开
-
CDH4.4-MRV1 HA 安装手册
编写不易,转载请注明(http://shihlei.iteye.com/blog/2066627)!一 概述 公司使用CDH4的环境,Job运行时环境选择的是MRV1,网络上搭建CDH4.4 HDFS ,MRV1 HA环境的资料非常少。尝试搭建,并将过程记录于《Hadoop_CDH4.4.0_MRV1_CDH4.2.2_安装手册_v0.2》; 二 规划 ...原创 2014-05-15 09:58:50 · 105 阅读 · 0 评论 -
Hadoop-2.3.0-cdh5.0.1单机搭建、伪分布式搭建、本地目录配置
编写不易,转载请注明(http://shihlei.iteye.com/blog/2082625)!一安装概述Hadoop 安装的三种模式: 1)单机模式(standalone) 单机模式是Hadoop的默认模式。当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,便保守地选择了最小配置。在这种默认模式下所有3个XML文件均为空。当配置文件为空时...原创 2014-06-19 17:11:38 · 141 阅读 · 0 评论 -
Hadoop-2.3.0-cdh5.0.1完全分布式环境搭建(NameNode,ResourceManager HA)
编写不易,转载请注明(http://shihlei.iteye.com/blog/2084711)!说明 本文搭建Hadoop CDH5.0.1 分布式系统,包括NameNode ,ResourceManger HA,忽略了Web Application Proxy 和Job HistoryServer。 word版:见附件吧!一概述(一)HDF...原创 2014-06-25 12:04:27 · 338 阅读 · 0 评论 -
Hadoop Reduce Join及基于MRV2 API 重写
编写不易,转载请注明(http://shihlei.iteye.com/blog/2263757)! 最近项目,需要对两个文件进行连接查询,从文件2中提取在文件1中选线id的记录。主要问题:两个文件都很大【 文件1:1亿记录 ; 文件2:8亿记录 】 方案:方案1:Map启动将文件1表示读取bloomfilter,map处理文件2,发现存在即...原创 2015-12-13 19:00:44 · 140 阅读 · 0 评论