大数据学习笔记3--HDFS扩展和mapreduce工作过程

最新推荐文章于 2021-12-24 20:37:07 发布

程序小小望

最新推荐文章于 2021-12-24 20:37:07 发布

阅读量1k

点赞数

分类专栏：大数据文章标签： hdfs mapreduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jinyingone/article/details/44998943

版权

大数据专栏收录该内容

6 篇文章 0 订阅

订阅专栏

HDFS配置：

客户端中的配置参数可以覆盖服务端的参数。
例如：副本数，切块大小

HDFS文件存储：

服务端存储block的实际大小，但是不适合存储小文件，小文件会占用namenode的元数据空间。
对于小文件数据的优化，可以在上传之前先合并再上传。
例如：压缩、文本文件合并

HDFS扩展：

hdfs支持rest API，与平台无关
jetty 容器
hdfs支持rest command

分布式任务传统方式：

任务资源分发 jar配置文件。。。硬件资源的分配
任务在各个任务节点上设置运行环境，启动执行
监视各个阶段任务执行状态
任务失败，重试
中间结果调度，汇总

hadoop对分布式抽象

yarn：资源调度器，负责硬件资源调度、任务分配、环境配置、启动任务。
mapredce：分布式运算框架，监视任务执行、失败重试、中间结果调度。
spark、storm：实时计算

mapreduce

mapper：
一次读取一行数据
输出一组keyValue
mapper个数等于block块数
shuffle：
合并数据
reduce：
业务逻辑处理

hadoop序列化机制：

hadoop中目前的序列化机制是writable，后续版本中会替换为avro

mapreduce任务提交方式

jar包，hadoop jar wordcount.jar Count
mr会被提交到集群，属于集群的运行方式
local模式
在eclipse里直接运行main方法
eclipse hadoop 插件

mapreduce任务执行流程

RunJar：客户端
ResourceManager：资源管理器，老大
NodeManager：执行任务管理器
MrAppMaste：任务启动、监控、失败重试
yarnchild：mapper和reducer

RunJar向ResourceManager申请提交一个job
ResourceManager返回jobid和一个job的提交的路径（hdfs://）
RunJar提交job任务的相关文件（jar，配置job.xml,split.xml）到hdfs
RunJar上报给ResourceManager任务已经提交完成
ResourceManager分配资源，并将任务任务写入到任务队列中
NodeManager主动向ResourceManager领取任务
NodeManager在一个容器中启动MrAppMaster
MrAppMaster向ResourceManager注册
ResourceManager向MrAppMaster返回资源信息
MrAppMaster启动mapper(mapper reducer详细流程。。。)
MrAppMaster启动reducer
任务执行完成，向ResourceManager注销资源

程序小小望

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据学习笔记3--HDFS扩展和mapreduce工作过程

HDFS配置：客户端中的配置参数可以覆盖服务端的参数。例如：副本数，切块大小HDFS文件存储：服务端存储block的实际大小，但是不适合存储小文件，小文件会占用namenode的元数据空间。对于小文件数据的优化，可以在上传之前先合并再上传。例如：压缩、文本文件合并HDFS扩展：hdfs支持rest API，与平台无关jetty 容器hdfs支持rest command分布式任务
复制链接

扫一扫

专栏目录

程序小小望 CSDN认证博客专家 CSDN认证企业博客

码龄13年

17: 原创

32万+: 周排名

164万+: 总排名

8万+: 访问

: 等级

716: 积分

16: 粉丝

11: 获赞

28: 评论

20: 收藏

私信

关注

热门文章

分类专栏

读书有感 1篇
JAVA编程 6篇
编程理论 5篇
数据库 2篇
js编程 2篇
大数据 6篇

最新评论

balsamiq mockups 原型设计工具
Cindy62: 现在给大家推荐使用国产Mockplus，相当给力的原型工具，上手快，操作简单！
CSDN博客自动访问
曲小鑫: 这博客会不会被csdn封了。。。
CSDN博客自动访问
zhuzhuaq 回复姜小白-: 瞬间开始怀疑那些高访问量博主们的博客了

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。