Hadoop学习笔记一（入门篇）

王腾

于 2015-01-13 11:04:26 发布

阅读量737

点赞数

分类专栏： hadoop 文章标签： Hadoop学习笔记一入门篇

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tonywangteng/article/details/42673567

版权

hadoop 专栏收录该内容

6 篇文章 1 订阅

订阅专栏

1.大数据处理系统的三大关键要素------“存储”，“计算”和“容错”。

2.MapReduce:重写了Google的索引文件系统。

3.在Hadoop中，用于执行MapReduce任务的机器有两个角色：一个是JobTracker,另一个是TaskTracker.

4.在Hadoop中，每个MapReduce任务都被初始化为一个Job,分为Map阶段和Reduce阶段。

5.InputFormat()和InputSplit

1.InputSplit是Hadoop中用来把输入数据传送给每个单独的Map,InputSplit存储的并非数据本身，而是一个分片长度和一个记录数据位置的数组。

6.InputFormat()方法是用来生成可供Map处理的<key,value>对的。

7.InputFormat()调用getRecordReader()方法生成RecordReader,RecordReader再通过createKey(),createValue()方法创建可供Map处理的<key,value>对，即<k1,v1>.

8.InputFormat的子类有DBInputFormat和FileInputFormat,FileInputFormat分为CombineFileInputFormat，KeyValueTextInputFormat,TextInputFormat.

9.TextInputFormat是Hadoop默认的输入方法。

10.key值是每个数据记录在数据分片中的字节偏移量，数据类型是LongWritable.

11.value值是每行的内容，数据类型是Text.

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。