【大数据系列】之Hadoop-MapReduce学习笔记

最新推荐文章于 2024-07-15 19:00:06 发布

子墨将

最新推荐文章于 2024-07-15 19:00:06 发布

阅读量1.1k

点赞数

分类专栏：大数据 # Hadoop 文章标签： hadoop mapreduce big data

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40864434/article/details/121915065

版权

大数据同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

5 篇文章 0 订阅

订阅专栏

Hadoop之MapReduce

分布式运算程序，可以说HDFS负责存储，YARN负责资源的调度，那么MapReduce就负责计算

特点：

良好扩展性
高容错性
PB级以上的离线处理

缺点：

不擅长实时计算
不擅长流式计算
不擅长DAG(有向无环图)计算

一、MapReduce进程

MrAppMaster:负责整个程序的过程调度及状态调度
MapTask:负责Map阶段的整个数据处理流程
ReduceTask:负责Reduce阶段的整个数据处理流程

二、WordCount程序例子

WordCount词频统计编程

三、序列化

序列化： 将对象写入到IO流中
反序列化： 从IO流中恢复对象
意义： 序列化机制允许将实现序列化的Java对象转换位字节序列，这些字节序列可以保存在磁盘上，或通过网络传输，以达到以后恢复成原来的对象。序列化机制使得对象可以脱离程序的运行而独立存在。

基于Hadoop的分布式存储，不同的节点在不同的机器上，每个机器都有其JVM虚拟机，序列化能更好的让数据对象与不同机器上的进程进行交互。

序列化实操,自定义Bean对象。
。。。略

四、MapReduce 框架原理

在这里插入图片描述

4.1 InputFormat数据输入

1、切片与MapTask并行度

数据块： HDFS上的物理数据块，存储单位。
数据切片：MapRedece程序计算的逻辑块，输入数据的单位

一个一片对应着一个MapTask,切片大小默认是BlockSize(块大小)。

2、FileInputFormat的切片机制

（1）简单的按照文件的内容长度进行切片。
（2）切片大小，默认等于Block大小。
（3）切片时不考虑数据集整体，而是逐个针对每一个文件单独切片。
（4）切片剩余部分是否大于块的1.1倍，不大于1.1倍就划分为一块切片。

3、FileInputFormat的实现类

TextInputFormat、KeyValueTextInputFormat、NLineInputFormat、CombineTextInputFormat和自定义InputFormat等
对应着不同的输入数据类型。

TextInputFormat

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【大数据系列】之Hadoop-MapReduce学习笔记

Hadoop之MapReduce分布式运算程序特点：良好扩展性高容错性PB级以上的离线处理缺点：不擅长实时计算不擅长流式计算不擅长DAG(有向无环图)计算一、MapReduce进程MrAppMaster:负责整个程序的过程调度及状态调度MapTask:负责Map阶段的整个数据处理流程ReduceTask:负责Reduce阶段的整个数据处理流程二、WordCount程序例子词频统计// Map类，继承于org.apache.hadoop.mapreduce.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。