目录
一、CombineTextInputFormat虚拟切片最大尺寸设置
框架默认的TextInputFormat切片机制是对任务按文件规划切片,不管文件多小,都会是一个单独的切片,都会交给一个MapTask,这样如果有大量小文件,就会产生大量的MapTask,处理效率极其低下。
那么处理小文件就需要CombineTextInputFormat了,CombineTextInputFormat用于小文件过多的场景,它可以将多个小文件从逻辑上规划到一个切片中,这样,多个小文件就可以交给一个MapTask处理。
一、CombineTextInputFormat虚拟切片最大尺寸设置
在使用CombineTextInputFormat格式化器时,需要在Driver类中进行job设置,包括定义InputFormat类和虚拟切片尺寸。如下
job.setInputFormatClass(CombineTextInputFormat.class);
CombineTextInputFormat.setMaxInputSplitSize(job,4);