hadoop
文章平均质量分 75
iteye_20264
这个作者很懒,什么都没留下…
展开
-
[问题解决]hadoop eclipse plugin
[b]环境:[/b]hadoop 1.2.0[b]问题:[/b]eclipse报错"Error:failure to login"[b]原因:[/b]检查eclipse日志,缺少依赖包,报NoClassDefFoundError[b]解决方法:[/b]src/contrib/eclipse-plugin目录修改build.xml[code="xml"] ...原创 2013-08-27 09:22:58 · 116 阅读 · 0 评论 -
[实验]hadoop例子 trackinfo数据清洗的改写
之前的“trackinfo数据清洗”例子中为使用combiner,这个列子通过改写mapper和reducer以支持combiner,同时使用1.75因子计算的reducer task数量。[url]http://gqm.iteye.com/blog/1935541[/url][b]Mapper[/b][code="java"]public class TrackInfoCleansi...原创 2013-09-03 10:42:36 · 250 阅读 · 0 评论 -
[笔记]hadoop tutorial - Reducer
[quote]Reducer reduces a set of intermediate values which share a key to a smaller set of values.[/quote][b]Reducer的数量[/b]可通过以下方法设置[code="java"]JobConf.setNumReduceTasks(int);[/code]可以修改mapred...原创 2013-09-03 10:15:33 · 134 阅读 · 0 评论 -
[实验]hadoop例子 trackinfo数据清洗
[b]业务场景:[/b]假设用户在某处(例如某个网页或者某个地点)的活动会有一个日志,通过日志清洗出用户的一个点击流或者路径流,从而为后续分析做准备。[i]例子中使用了自定义的Hadoop的Writable类[/i][b]位置类Location.java[/b]定义了主位置信息mainLoc和细分位置信息subLoc[code="java"]public class L...原创 2013-09-02 17:24:41 · 411 阅读 · 0 评论 -
[环境] hadoop 开发环境maven管理
贴一下整理的maven管理配置(待补充)[code="pom.xml"] 4.0.0 com.sanss.hadoop parent 1.0.0 pom SANSSHadoop :: Module :: Parent ...原创 2013-09-02 17:02:14 · 99 阅读 · 0 评论 -
[笔记]avro 介绍及官网例子
[b]Apache Avro[/b]是一个独立于编程语言的数据序列化系统。旨在解决Hadoop中Writable类型的不足:缺乏语言的可移植性。其强调数据的自我描述,依赖于它的schema。即支持动态加载schema,动态映射;也支持代码生成的描述性映射。[i]官网的介绍:[/i][quote]Apache Avro™ is a data serialization system. Avr...原创 2013-09-02 14:22:12 · 175 阅读 · 0 评论 -
[实验]hadoop例子 在线用户分析
一个简单的业务场景和例子。由wordcount例子改写。业务场景:每个用户有在线事件,并带有日志。分析一段时间内的在线的用户以及他们的事件数。备注:假设事件日志中以逗号分割字段,第5个字段为用户识别码[code="java"]public class ActiveUserMapper extends Mapper { private final static Int...原创 2013-08-30 15:54:24 · 151 阅读 · 0 评论 -
[笔记]hadoop mapred InputFormat分析
Hadoop MapReduce的编程接口层主要有5个可编程组件,分别为InputFormat、Mapper、Partitioner、Reducer和OutputFormat。[b]InputFormat[/b]主要用于描述输入数据的格式,提供两个功能:[*]数据切分:将输入数据切分为若干个split(分片),每个split会被分发到一个Map任务中。[*]记录识别:通过创建R...原创 2013-08-30 13:43:13 · 105 阅读 · 0 评论 -
[笔记]hdfs namenode FSNamesystem分析
NameNode在内存中维护整个文件系统的元数据镜像,用于HDFS的管理。NameNode中元数据的管理主要由类FSNamesystem实现。[quote]/*************************************************** * FSNamesystem does the actual bookkeeping work for the * Dat...原创 2013-08-30 09:18:12 · 673 阅读 · 0 评论 -
[笔记]hdfs namenode FSImage分析1
[b]元数据文件fsimage的分析[/b]fsimage为元数据镜像文件,存储的是某一时刻NameNode内存元数据信息,包括所有的INode信息、正在写入的文件信息以及其他的一些状态信息等。[quote] /** * Save current image and empty journal into {@code current} directory. */ p...原创 2013-08-29 15:10:30 · 291 阅读 · 0 评论 -
[实验]集群hadoop配置
[b]环境[/b]hadoop1.2.0 CentOS release 6.4 jdk1.7.0_25[table]|node04vm01|192.168.15.146|master|NameNode,SecondaryNameNode,JobTracker||node04vm02|192.168.15.147|slave|DataNode,TaskTracker||n...原创 2013-08-28 16:53:08 · 85 阅读 · 0 评论 -
[实验]单机hadoop配置
[b]环境:[/b]hadoop1.2.0[b]配置[/b]修改conf/core-site.xml[code="xml"] fs.default.name hdfs://localhost:9000 [/code]修改conf/hdfs-site.xml...原创 2013-08-28 14:16:06 · 119 阅读 · 0 评论 -
[实验]avro与non-avro的mapred例子-wordcount改写
avro非常适合用于hadoop。在开发的时候可能有这样的场景,输入的文件是non-avro的,输出的文件是avro的。这样就需要一个是非avro的mapper和一个avro的reducer。下面通过改写wordcount例子演示这个过程。[b]Mapper[/b][code="java"]public class WordCountMapper extends MapReduceBa...原创 2013-09-03 16:15:41 · 165 阅读 · 0 评论