hadoop之mapreduce

最新推荐文章于 2024-07-11 09:20:45 发布

weidajiangjiang

最新推荐文章于 2024-07-11 09:20:45 发布

阅读量211

点赞数

分类专栏：面试复习专栏文章标签： hadoop mapreduce 大数据

本文链接：https://blog.csdn.net/weidajiangjiang/article/details/103738218

版权

面试复习专栏专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一：MapReduce

1.谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化?

1）序列化和反序列化
序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储（持久化）和网络传输。
反序列化就是将收到字节序列（或其他数据传输协议）或者是硬盘的持久化数据，转换成内存中的对象。
Java的序列化是一个重量级序列化框架（Serializable），一个对象被序列化后，会附带很多额外的信息（各种校验信息，header，继承体系等），不便于在网络中高效传输。所以，hadoop自己开发了一套序列化机制（Writable），精简、高效。
2）自定义bean对象要想序列化传输步骤及注意事项：。
（1）必须实现Writable接口
（2）反序列化时，需要反射调用空参构造函数，所以必须有空参构造
（3）重写序列化方法
（4）重写反序列化方法
（5）注意反序列化的顺序和序列化的顺序完全一致
（6）要想把结果显示在文件中，需要重写toString()，且用”\t”分开，方便后续用
（7）如果需要将自定义的bean放在key中传输，则还需要实现comparable接口，因为mapreduce框中的shuffle过程一定会对key进行排序
2.FileInputFormat切片机制
（1）简单地按照文件的内容长度进行切片
（2）切片大小，默认等于block大小
（3）切片时不考虑数据集整体，而是逐个针对每一个文件单独切片
3.如何决定一个job的map和reduce的数量?
1）map数量
splitSize=max{minSize,min{maxSize,blockSize}}
map数量由处理的数据分成的block数量决定default_num = total_size / split_size;
2）reduce数量
reduce的数量job.setNumReduceTasks(x);x 为reduce的数量。不设置的话默认为 1

说一说mapreduce的几个阶段吧

首先在maptask的工作中，第一是read阶段：Map Task通过用户编写的RecordReader，从输入InputSplit中解析出一个个key/value。第二个会进行map的操作，按照所需规则形成一个个新的key/value，然后会进行collect阶段，并输出到环形缓冲区（默认大小是100M，超过80%会发生溢写）里面，其次是溢写阶段，当缓冲区被写满之后，文件会溢出写到本地磁盘，这里注意，在落地到本地磁盘之前会进行一次排序（快排），最后是combine（合并）阶段，将溢写出的文件合并成一个大文件
然后是在reducetask阶段，首先会进行copy数据从map端，然后进行合并（合并磁盘和内存上的文件），合并完成后会进行排序（归并排序），最后是reduce阶段。将得到的结果输出到hdfs之上

mapreduce的优化

1.mapreduce 跑的慢的原因？
Mapreduce 程序效率的瓶颈在于两点：
1）计算机性能
CPU、内存、磁盘健康、网络
2）I/O 操作优化
（1）数据倾斜
（2）map和reduce数设置不合理
（3）reduce等待过久
（4）小文件过多
（5）大量的不可分块的超大文件
（6）spill次数过多
（7）merge次数过多等。

具体优化这里就先不提了！需要问题的话q我！

weidajiangjiang

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop之mapreduce

一：MapReduce1.谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化?1）序列化和反序列化序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储（持久化）和网络传输。反序列化就是将收到字节序列（或其他数据传输协议）或者是硬盘的持久化数据，转换成内存中的对象。Java的序列化是一个重量级序列化框架（Serializable），一个对象被序列化后，会附带...
复制链接

扫一扫