【大数据】MapReduce

最新推荐文章于 2024-10-29 09:57:15 发布

「已注销」

最新推荐文章于 2024-10-29 09:57:15 发布

阅读量1.8k

点赞数 59

分类专栏：大数据文章标签：大数据 Hadoop MapReduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/from__2024_04_11/article/details/138949906

版权

大数据专栏收录该内容

4 篇文章 3 订阅

订阅专栏

文章目录

@[toc]
海量数据分流技术
传统Hash
一致性Hash（Consistent Hashing）

MapReduce执行流程
InputFormat
Shuffle
Partitioner
Spill
Combiner

MapReduce两个重要的进程
JobTracker
TaskTracker

MapReduce物理配置
查看系统资源限制
设置合适的slot

Hadoop Streaming
Streaming选项

因上努力

个人主页：丷从心·

系列专栏：大数据

果上随缘

海量数据分流技术

传统Hash

Hash(key) % max

一致性Hash（Consistent Hashing）

将哈希值映射到一个哈希环上
每个节点通过哈希函数映射到这个环上一个或多个点
数据项也通过哈希函数映射到环上的某个点，然后按照顺时针方向查找到第一个节点，这个节点就是该数据项存储的地方

MapReduce执行流程

InputFormat

$M a pR e d u ce$ 框架基础类之一，进行 $\ Split$ 数据分割和 $\ Read$ 记录读取
$Bl oc k$ 是底层的文件块， $M a p$ 无法直接读取，需要将 $Bl oc k$ 转换为内部可以识别的 $R ecor d$
'\n'保证每条记录在数据切割时不被切散，实际上每个 $Spl i t$ 包含后一个 $Bl oc k$ 中开头部分的数据，解决 $R ecor d$ 跨 $Bl oc k$ 问题
$\ Reader$ 每读取一条 $R ecor d$ ，就调用一次 $M a p$ 函数

Shuffle

$M a p$ 任务的输出到 $R e d u ce$ 任务的输入之间的过程

Partitioner

决定数据由哪个 $R e d u ce$ 处理，从而分区
$P a r t i t i o n$ 在一个环形内存缓冲区中进行，每个缓冲区大小默认 $100 M$ ，溢写阈值为 $100M \times 80\% = 80 M$ ，缓冲区中的数据为 $(p a r t i t i o n, k ey, v a l u e)$ 三元组

Spill

在内存缓冲区达到阈值时， $Sp i ll$ 溢写线程会锁住 $80 M$ 的缓冲区，开始将数据写到本地磁盘上，然后释放内存
每次溢写都生成一个数据文件
数据溢写前会对 $k ey$ 进行快速排序以及 $C o mbin e$

Combiner

将相同的 $k ey$ 的数据的 $v a l u e$ 进行合并
减少数据量，提高数据传输效率

MapReduce两个重要的进程

JobTracker

主进程，负责接收 $Cl i e n t$ 作业提交，调度任务到从节点上运行
监控工作节点状态及任务进度
利用一个线程池来同时处理心跳和用户请求

TaskTracker

由 $J o b T r a c k er$ 指派任务，实例化用户程序，在本地执行任务
通过周期性的心跳来通知 $J o b T r a c k er$ 其当前的健康状态，每 $3$ 秒心跳一次，每一次心跳包含了可用的 $M a p$ 和 $R e d u ce$ 任务数目、占用的数目以及运行中的任务详细信息

MapReduce物理配置

查看系统资源限制

ulimit -a

设置合适的slot

mapred.tasktracker.map.tasks.maximum默认值为 $2$
mapred.tasktracker.reduce.tasks.maximum默认值为 $2$

Hadoop Streaming

$M a p$ 和 $R e d u ce$ 只需要从 $s t d in$ 读和写到 $s t d o u t$
$St re amin g$ 默认只能处理文本数据，如果对二进制数据进行处理，比较好的方法是将二进制的 $k ey$ 和 $v a l u e$ 进行 $ba se 64$ 的编码转换，得到文本

Streaming选项

-cacheFile选项指定一个文件，需要上传到 $HD FS$
-cacheArchive选项指定一个目录结构，需要上传到 $HD FS$
-file选项将本地文件分发到计算节点上
-jobconf选项
- mapred.job.priority表示作业优先级
- mapred.job.map.capacity表示最多同时运行的 $M a p$ 任务数
- mapred.job.reduce.capacity表示最多同时运行的 $R e d u ce$ 任务数
- mapred.task.timeout表示任务未响应的最大时间

「已注销」

关注

59
点赞
踩
30

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。