自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

通大攻城狮的博客

大数据学习

  • 博客(3)
  • 收藏
  • 关注

原创 MapReduce 优化

MapReduce优化MapReduce性能问题硬件问题使用问题优化方法数据输入Map阶段Reduce阶段IO传输数据倾斜常用调优参数 MapReduce性能问题 硬件问题 CPU、内存、网络&&磁盘 IO 使用问题 1)输入文件全是小文件; 2)超大不可切分文件(例如Gzip文件不支持切分; 3)Map 、Reduce的操作数设置不合理; 4)Map运行时间过长,导致Reduce...

2019-06-25 23:32:42 141 1

原创 MapReduce 自定义FileOutPutForamt日志筛选和输出文件重命名

MapReduce 自定义FileOutPutForamt日志筛选和输出文件重命名 MapReduce源文件出现很多小文件会生成很多切片很多从而生成很多maptask,而且每个task处理的文件很小浪费资源,降低工作效率。 针对这种情况的优化无非以下几种方式: (1)在数据采集的时候,就将小文件或小批数据合成大文件再上传HDFS (2)在业务处理之前,在HDFS上使用mapreduce程序对小文件...

2019-06-24 15:07:34 312

原创 MapReduce 自定义FileInPutForamt合并小文件

MapReduce 自定义FileInPutFormat合并小文件理论分析案例 理论分析 MapReduce源文件出现很多小文件会生成很多切片很多从而生成很多maptask,而且每个task处理的文件很小浪费资源,降低工作效率。 针对这种情况的优化无非以下几种方式: (1)在数据采集的时候,就将小文件或小批数据合成大文件再上传HDFS (2)在业务处理之前,在HDFS上使用mapreduce程序对...

2019-06-23 21:06:49 190

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除