转载
https://blog.csdn.net/qq_32641659/article/details/89339143
1、Hive常见的文件格式
- SEQUENCEFILE:生产中绝对不会用,k-v格式,比源文本格式占用磁盘更多
- TEXTFILE:生产中用的多,行式存储
- RCFILE:生产中用的少,行列混合存储,ORC是他得升级版
- ORC:生产中最常用,列式存储
- PARQUET:生产中最常用,列式存储
- AVRO:生产中几乎不用,不用考虑
- JSONFILE:生产中几乎不用,不用考虑
- INPUTFORMAT:生产中几乎不用,不用考虑
hive默认的文件格式是TextFile,可通过set hive.default.fileformat 进行配置
行式存储和列式存储
列式存储:
优点:当查