hive优化
sun_shang
天下为家,车舆所至之处,皆曰行在。
展开
-
hive数据倾斜优化
关于hive的优化一、创建表时候的优化a) 大表拆分为小表b) 如果使用外部分区表的话,要注意多级分区,比如以天为分区的话,每天为分区,以小时为分区的话,要以小时为二级分区。c) 数据存储:更改存储格式、数据压缩。二、对表数据查询的优化a) Sql语句的优化:尽可能的加入合理的过滤语句,使查询到的数据更合理、更少而有效;对于分原创 2017-09-10 23:20:06 · 1765 阅读 · 0 评论 -
hive数据倾斜解决方法
Hive倾斜—不患寡而患不均一、数据倾斜的原因Hive倾斜的原因很大部分是由于sql中的join语句与group by语句。原因:对于普通的join操作,会在map端根据key的hash值,shuffle到某一个reduce上去,在reduce端做join连接操作,内存中缓存join左边的表,遍历右边的表,依次做join操作。所以在做join操作时候,将数据量多的表放在join的右边。原创 2017-09-10 23:54:14 · 5891 阅读 · 0 评论