HIVE数据倾斜问题

最新推荐文章于 2024-09-14 19:55:29 发布

詹小布

最新推荐文章于 2024-09-14 19:55:29 发布

阅读量79

点赞数

文章标签：数据库大数据运维

原文链接：http://www.cnblogs.com/zhanghaocore/p/5630840.html

版权

HIVE数据倾斜问题
问题状态： 未解决

背景：HDFS对文件进行了压缩，而且不添加索引。主要用HIVE进行开发。
发现的现象：sqoop从Mysql导入数据，根据ID进行平均分割,但是ID分部及其不均匀(我也不知道业务系统怎么搞得)。所以导致reduce出来的文件大小严重不均匀，就是所谓的数据倾斜。
导致的问题：写HQL从该表中读取数据，发现整个job很慢。后来我查日志发现，有几个map读取数据非常慢，1G的文件大概需要1个多小时才能读取完毕。
问题分析： 由于hadoop对文件进行了lzo格式压缩（lzo格式不支持切割）。运维又没有对文件添加索引，所以这1G的文件必须走一次网络I/O将文件读取到map所在节点，然后再整体读取。所以导致该map非常慢。
解决思路：