split命令可以将一个大文件分割成很多个小文件,有时需要将文件分割成更小的片段,方便hadoop导入,解决内存的限制。
-b:值为每一输出档案的大小,单位为 byte。 -C:每一输出档中,单行的最大 byte 数。 -d:使用数字作为后缀。 -l:值为每一输出档的列数大小。
文件被分割成多个带有字母的后缀文件,如果想用数字后缀可使用-d参数,同时可以使用-a length来指定后缀的长度:(默认的后缀名称是x,可以指定后缀名)
split -l 1000000 temp.file -d -a 3 split -b 10k date.file -d -a 3 split_file(指定的后缀名是split_file)