![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
专 属
这个作者很懒,什么都没留下…
展开
-
hadoop 分片机制
hadoop mr 的map端输入默认切片算法: 首先明确几个概念: 最小切片大小: minSplitSize=1 最大切片大小: maxSplitSize=Long.MAX 块大小:blockSize 切片的大小范围值:minSize=max(1,minSplitSize) maxSize=maxSplitSize s...原创 2019-05-15 15:00:39 · 939 阅读 · 0 评论 -
用CombineFileInputFormat解决小文件问题
使用Hadoop API(抽象类CombineFileInputFormat)来解决小文件的问题。抽象类CombineFileInputFormat的基本思想是通过使用一个定制的InputFormat允许将小文件合并到Hadoop的分片(split)或块(chunk)中。要使用抽象类CombineFileInputFormat,需要事项2个定制类。 1、 CombineSmallfile...原创 2019-05-15 16:46:41 · 1597 阅读 · 0 评论