将文件上传到HDFS时,会被切分成指定大小的数据块,就是 block,这是实质上的物理划分。切片划分是一种逻辑划分,为了更好的获取数据输入,默认情况下split 的大小与block大小一致,减小由于大小不一导致的多余网络间的传输。Split的大小是允许用户自定义的,在程序输入数据的时候对数据进行标记。