Hadoop权威指南-读书笔记

Hadoop权威指南-读书笔记

1.MapReduce

MapReduce 作业(job)是客户端需要执行的一个工作单元,包括输入数据,MapReduce 程序和配置信息。Hadoop
将作业分为若干个任务(task)来执行,包括 map 任务和 reduce 任务,任务运行在节点上,通过 YARN 进行调度。 Hadoop
对数据进行分片,对每个分片构建一个 map 任务。map 任务输出的是中间结果,经过 reduce 任务处理过之后才是最终输出结果。

2.HDFS

  • 超大文件
  • 流式数据访问

构建思路:一次写入,多次读取是最高效的访问模式
每次分析都涉及该数据集的大部分数据

  • 商用硬件

不需要运行在昂贵且高可靠的硬件上

  • 非低延迟的数据访问

HDFS 不适合要求低时间延迟的应用,因为 HDFS 是为高数据吞吐量优化的
如果需要低延迟的访问需求,可以考虑 HBase

  • 大量文件

namenode 将文件系统元数据存储在内存中,因此文件系统能存储的文件总数受限于 namenode 的内存容量。

  • 多用户写入

HDFS 文件写入支持单个写入者,而且每次写操作是在结尾 apend 的形式,不支持多个写入者,也不支持在文件任意位置修改

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值