1. SequenceFile是面向行,RCFile是面向列。
2. TextFile,SequenceFile,RCFile是hive常用的三种存储格式。其中,TextFile是hive默认的存储格式,SequenceFile和RCFile是二进制存储格式。
3. 相比于TextFile,SequenceFile和RCFile支持压缩,文件压缩后上传到HDFS上,下载后不支持直接查看,故所占存储空间要小,磁盘和IO压力小,也更易优化。此外,SequenceFile和RCFile也支持文件切割分片,其中,RCFile会将表分成行分片(row split),在每一个分片中先存所有行的第一列,再存第二列,依此类推。
4. SequenceFile和RCFile的比较:不可否认的,当我们只需要查询某一列的数据时,SequenceFile往往会将整个数据行都加载到内存中,这将造成内存的浪费。然而ÿ