Hadoop
文章平均质量分 83
lifeising
这个作者很懒,什么都没留下…
展开
-
Hadoop权威指南学习(七)——其他
剩余章节包括 构建Hadoop集群; 管理Hadoop; Pig简介 Hive简介: Hive是一个都见在Hadoop上的数据仓库框架,它把SQL查询转换成Hadoop集群上运行的MapReduce作业,实现对HDFS上的大规模数据进行查询。 Hive把数据组织成表,对HDFS上的数据赋予结构,元数据(如表模式)存储在名为metastore的数据库中。 Hbase+ZooKeeper原创 2011-11-11 18:55:51 · 950 阅读 · 0 评论 -
hadoop作业引用第三方jar文件
编写mapreduce程序,习惯用eclipse,可以利用hadoop插件,引用第三方jar文件,然后直接run on hadoop即可,很方便。当然插件和eclipse的版本要匹配,不然总是local执行。但如果将自己的程序发布成jar文件,然后用hadoop命令行执行,则会遇到依赖类找不到问题:NoClassDefFoundError。 要解决这个问题,就需要了解hadoop命令式如原创 2012-04-25 21:13:02 · 11355 阅读 · 2 评论 -
Hadoop权威指南学习(六)——MapReduce的特性
1. 计数器 收集作业统计信息,可辅助诊断系统故障,Hadoop作业的内置计数器包括map和reduce输入/输出/跳过的记录,溢出记录,文件系统读写的字节以及启动或失败的map或reduce等。用户可自定义计数器,多个计数器由一个Java枚举类型来定义,以便对计数器分组。枚举类型的名称即为组名,字段为计数器名。 enum Group { counter } reporter.incrC原创 2011-11-11 18:55:01 · 1725 阅读 · 0 评论 -
Hadoop权威指南学习(五)——MapReduce的类型和格式
1. MapReduce的类型 map:(K1,V1)-->list(K2, V2);combine:(K2,list(V2))-->list(K2, V2);reduce:(K2,list(V2))-->list(K3, V3),如果combine和reduce函数是一样的,则K2=K3,V2=V3;partition:(K2, V2)--> integer,partition函数处理(K2,原创 2011-11-10 21:12:59 · 1649 阅读 · 0 评论 -
Hadoop权威指南学习(四)——MapReduce工作机制
1. 作业提交 Hadoop学习总结:Map-Reduce的过程解析:从代码级解析map-reduce的过程,包括client发出请求,jobtracker和tasktracker的启动、交互等以及child线程(map+reduce)的处理过程。 2. 失败:包括任务失败,tasktracker失败以及jobtracker失败(需查看源代码分析) 3. 调度器 默认的调度器是原创 2011-11-08 20:00:41 · 1472 阅读 · 0 评论 -
Hadoop权威指南学习(三)——MapReduce应用开发
开发MapReduce程序,有一个特定流程:1.写map和reduce函数,并经过单元测试;2. 编写本地测试程序运行作业;3. 在集群上运行,使用IsolationRunner在失败的相同输入数据上运行任务;4. 优化调整,任务剖析,Hadoop提供钩子(hook)辅助分析。 1. 单元测试 import static org.mockito.Mockito.*; // 使用mock建立原创 2011-11-08 15:28:08 · 1961 阅读 · 0 评论 -
Hadoop权威指南学习(一)——关于Mapreduce
Hadoop 0.20.0中包含了新的API:org.apache.hadoop.mapreduce包: 充分使用上下文对象,是用户代码能与MapReduce系统通信,如MapContext基本具备JobConf、OutputCollector和Reporter的功能;同时支持push和pull式的迭代,这两类API均可以将key/value对记录push给mapper,同时还允许吧记录从map原创 2011-11-07 11:24:48 · 1227 阅读 · 0 评论 -
Hadoop权威指南学习(二)——HDFS & Hadoop IO
HDFS设计: 以流式数据访问模式来存储超大文件,“一次写入,多次读取”; HDFS为高数据吞吐量应用优化的,低延迟的方位需求应选择HBase; 文件系统的元数据存储在namenode的内存中,所能存储的文件总数受限于内存容量; HDFS的块(block)默认为64M(块大的目的为了最小化寻址开销,从磁盘传输时间可明显大于定位时间),以块存储而非文件可简化存储系统的设计 HDFS只是Ha原创 2011-11-07 14:03:22 · 1633 阅读 · 0 评论 -
Hadoop学习资料
想深入学习Hadoop,理解Hadoop的实现细节,网上各种资料,没必要自己再写,写了也不一定比别人的好,先收罗看过的比较好的材料~ 《Hadoop权威指南》以及Hadoop官方文档 对HDFS以及MapReduce做了较全面介绍,能够对Hadoop有较全面的理解,但止于介绍,对Hadoop细节实现还需要阅读代码才行。 Hadoop学习总结:Map-Reduce的过程解析原创 2011-11-06 22:55:51 · 1004 阅读 · 0 评论 -
简单理解mapreduce
刚开始学hadoop时, 一个完全没接触过的同学问我mapreduce到底怎样的? 我一下子没解释清楚, 后来想想可以举个简单例子来说明mapreduce. 比如现在有很多很多普通的扑克牌, 每张都有花色和数字, 共4种花色(除大小王), 13中数字. 这些扑克牌杂乱的混合在一起, 而且存放在多个仓库中, 这是背景. 应用场景一: 现在要统计每种花色有多少张扑克牌, 如何操作?原创 2014-02-02 16:56:54 · 2413 阅读 · 1 评论