个人观点:当处理海量小文件时,先将小文件进行sequenceFile操作或者类似操作处理,然后再上传到HDFS系统进行下一步的处理。(如有其它建议,欢迎留言)
一、直接上传本地栅格数据将导致的问题
根据栅格数据的特点,每层的图片个数都为上层数量的四倍。在第20层时,仅仅第20层的图片的数量达到了“2199023255552”张(世界地图在第一层被切成了两张图片,第二十层的数量为:4**7*2),且每张图片的大小都为10-20kb不等。HDFS在存储文件时,会将文件break them into chunks,默认inputSplit的大小与block块的大小一致,为