自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 MapReduce中大量小文件是如何产生的?如何优化?

在分布式的架构中,分布式文件系统HDFS,和分布式运算程序编程框架mapreduce。HDFS:不怕大文件,怕很多小文件mapreduce :怕数据倾斜那么mapreduce是如果解决多个小文件的问题呢?mapreduce关于大量小文件的优化策略(1) 默认情况下,TextInputFormat对任务的切片机制是按照文件规划切片,不管有多少个小文件,都会是单独的切片,都会交给一个maptask,这样,如果有大量的小文件就会产生大量的maptask,处理效率极端底下(2)优化策略最好的方法:在

2020-05-22 15:58:35 966

原创 大数据技术之Hadoop(HDFS)

第1章 HDFS概述1.1 HDFS产出背景及定义1.2 HDFS优缺点1.3 HDFS组成架构1.4 HDFS文件块大小(面试重点)第2章 HDFS的Shell操作(开发重点)1.基本语法bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令dfs是fs的实现类。2.命令大全[jinghang@hadoop102 hadoop-2.7.2]$ bin/hadoop fs[-appendToFile <localsrc> ... &l

2020-05-21 10:21:32 600

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除