CombineTextInputFormat遇到的坑
#Hadoop CombineTextInputFormat遇到的坑###背景combineTextInputFormat是Hadoop的一个切片机制,默认情况下,使用TextInputformat,TextInputformat按文件数切分,即使文件很小,这样会产生大量的小文件,产生大量的maptask。导致处理效率低下。而combineTextInputFormat可以将多个小文件从逻辑上规划到一个切片中。###遇到的坑当多输入时使用combineTextInputFormat,会导致多输入合并
原创
2021-10-28 10:30:17 ·
820 阅读 ·
0 评论