![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hive
笑给别人看
6666666666
展开
-
hive的几种文件格式
Hive文件存储格式1.textfiletextfile为默认格式存储方式:行存储磁盘开销大 数据解析开销大压缩的text文件 hive无法进行合并和拆分2.sequencefile二进制文件,以的形式序列化到文件中存储方式:行存储可分割 压缩一般选择block压缩优势是文件和Hadoop api中的mapfile是相互兼容的。3.rcf转载 2016-12-07 17:43:53 · 610 阅读 · 0 评论 -
hive优化
长期观察hadoop处理数据的过程,有几个显著的特征: 1.不怕数据多,就怕数据倾斜。 2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,没半小时是跑不完的。map reduce作业初始化的时间是比较长的。 3.对sum,count来说,不存在数据倾斜问题。 4.对count(distinct xxx),效率较低,数据量一多,准出原创 2016-12-08 16:59:12 · 722 阅读 · 0 评论