通过命令 :Hadoop distcp -Ddfs.block.size=$[256*1024*1024] /path/to/inputdata /path/to/inputdata-with-largeblocks的方式来将已经存在咋hdfs上的数据进行大块化。
调整运行参数( -Dmapred.max.split.size=$[16*1024*1024] ),或者在配置文件中对将 mapred.max.split.size设置成$[16*1024*1024]
通过命令 :Hadoop distcp -Ddfs.block.size=$[256*1024*1024] /path/to/inputdata /path/to/inputdata-with-largeblocks的方式来将已经存在咋hdfs上的数据进行大块化。
调整运行参数( -Dmapred.max.split.size=$[16*1024*1024] ),或者在配置文件中对将 mapred.max.split.size设置成$[16*1024*1024]