hadoop初解

最新推荐文章于 2024-11-10 22:39:42 发布

aliantou4416

最新推荐文章于 2024-11-10 22:39:42 发布

阅读量116

点赞数

文章标签：大数据运维

原文链接：http://www.cnblogs.com/zxpgo/archive/2012/11/12/2767126.html

版权

轻松了一个月，被老师拉来搞hadoop和hbase，而且时间紧，任务重。每天要上交大于100字的学习日记。

先草草看了下hadoop权威指南，记录下。

Hadoop提供了一个可靠的共享存储和分析系统，HDFS实现存储，而MapReduce实现分析处理。这两个是核心。

HBase使用HDFS作为底层存储，同时支持MapReduce的批量式计算和点查询（随即读取）。

MapReduce作业（job）是客户端需要执行的一个工作单元：它包括输入数据、MapReduce程序和配置信息。Hadoop将作业分成若干个小任务（task）来执行，其中包括两类任务：map任务和reduce任务。

有两类节点控制着作业执行过程：一个jobtracker及一系列tasktracker。jobtracker通过调度tasktracker上运行的任务，来协调所有运行在系统上的作业。tasktracker在运行任务的同时将运行进度报告发送给jobtracker，jobtracker由此记录每项作业任务的整体进度情况。如果其中一个任务失败，jobtracker可以在另外一个tasktracker节点上重新调度该任务。

Hadoop将MapReduce的输入数据划分成等长的小数据块，称为输入分片。Hadoop为每个分片构建一个map任务，并由该任务来运行用户定义的map函数从而处理分片中的每条记录。

Hadoop在存储有输入数据（HDFS中的数据)的节点运行map任务，可以获得最佳性能。这就使所谓的数据本地化优化。

map任务将其输入写入本地硬盘，而非HDFS。因为map的输出是中间结果：该中间结果由reduce任务处理后才产生最终输出结果。

HDFS块大小默认为64MB。

HDFS集群有两类节点，并以管理者-工作者模式运行，即一个namenode和多个datanode。namenode管理文件系统的命名空间。它维护者文件系统树及整棵树内所有的文件和目录。这些信息以两个文件形式永久保存在本地磁盘上：命名空间镜像文件和编辑日志文件。namenode也记录着每个文件中各个块所在的数据节点信息，但它并不永久保存块的位置信息，因为这些信息会在系统启动时由数据节点重建。

转载于:https://www.cnblogs.com/zxpgo/archive/2012/11/12/2767126.html

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。