1. hadoop为什么只能设置reduce数,而不能设置map数?
首先单个文件(即hadoop fs -ls看到的文件)的split计算公式:split数目=file_size/max(min_format_size, min_split_size, min(block_size, max_split_size)
默认情况下,min_split_size=1, max_split_size=long_max, min_format_size由文件格式决定,一般的文本文件为1,压缩文件会比较大,因此分母这一项
默认=block_size(128M)
那么任务最重的map数=sum(各个file的split数目), 显然它是大于等于总共的file数目。
2. 如果输入数据过大,任务的map数太多,该怎么办?
从上面的公式可以看出,只要调整min_split_size即可,譬如设置为256M即可减小map数
3. 如果输入的小文件过大,导致map数大,运行效率低,该怎么办?
先将数据转化为SequenceInputFormat,如果上游没做这个转化,那么下游就需要做,转化后的数据record之间有一个Rsync间隔符,这也是SequenceInputFormat
文件可以进行split的原因。
4. 如果每个record数据包括多行,譬如微博数据,该如何split保证每个record数据被完整划分到单个split单元?
假设record是一行,在split的时侯找到当前split单元的start位置,start--(假设start位于某行的结尾,会漏掉下一行),然后把start开始的这一行扔掉就可以了。扔掉
的这一段与上一个split单元的结尾段要拼在一起,这就涉及到跨split单元读。
可以在相邻record数据之间加入特殊的分隔符,譬如@符号,然后类比上面按行读取(因为它的本质就是检测\n符号)
5. hadoop的lzo文件可以split吗?index文件有什么用?
如果没有index文件,是无法split的,结合index信息,可以定位出record的开头和结尾,这样才能进行split