![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
专 属
这个作者很懒,什么都没留下…
展开
-
hadoop 分片机制
hadoop mr 的map端输入默认切片算法:首先明确几个概念:最小切片大小: minSplitSize=1最大切片大小: maxSplitSize=Long.MAX块大小:blockSize切片的大小范围值:minSize=max(1,minSplitSize) maxSize=maxSplitSizes...原创 2019-05-15 15:00:39 · 937 阅读 · 0 评论 -
用CombineFileInputFormat解决小文件问题
使用Hadoop API(抽象类CombineFileInputFormat)来解决小文件的问题。抽象类CombineFileInputFormat的基本思想是通过使用一个定制的InputFormat允许将小文件合并到Hadoop的分片(split)或块(chunk)中。要使用抽象类CombineFileInputFormat,需要事项2个定制类。1、 CombineSmallfile...原创 2019-05-15 16:46:41 · 1592 阅读 · 0 评论