![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据之Hive
文章平均质量分 80
总结日常工作所遇到的问题,解决办法,以及巩固以往知识。
随风不随水
软考中级-软件设计师,星环大数据工程师认证,参与编写的数据工程方案,已通过中国信通院4A认证(国内不超过10家),参与电商,文旅,教育,医疗等数仓建设,做过to C,to B,to G的项目,能感觉到开发项目和交付项目的差异性。为了学大数据翻遍了互联网,发现都是常见字眼,核心干货并不多。。。,同一句话,复制粘贴了1000遍,1000遍。所以自己的博客,只想写点独家干货+部分日常的记录
展开
-
解决:10亿条数据,分区太多,T级数据量,数据执行失败
背景: 最近想要抽出日志数据(1.3T左右),统计商品的pv,uv,收藏,加车,分享,销售数等等,根据这些信息加权,用于商品推荐。 查看sparkui界面,发现数据分布在各台机器上比较均匀,但是shuffle read时间太长 在查表时,执行不出来,我推测是由于分区数太多引起,并且数据量太大。 解决: 1.将数据按天去抽取到一张中间表里 (1)可以建立一张表,不带分区,里面包含所有天的数据,然后where ds 按月 insert into 到表中,例如 ds >= 2020-01-01 and ds原创 2020-12-24 17:35:16 · 1054 阅读 · 1 评论 -
hive数据倾斜,非复制粘贴,确切实用
最近做宽表,insert overwrite table … select 导入数据时,发生了数据倾斜 情况 通过ui界面看到,有一半的数据,都跑在了单个节点上,执行的时候,报错,11.3G超出物理内存限制的11G。 百度搜了一下,hive数据倾斜,全部都是复制粘贴。。。 内容都是那几句,空值过滤,设置mapjoin,负载均衡,空值时随机数分配,预聚合,上面该操作的,我都操作过了,依然无法解决。 排查–引起数据倾斜的key 我的解决方案是,首先找出产生数据倾斜的key值,在sparkUI界面上,看执行情况,原创 2020-12-11 17:56:11 · 202 阅读 · 1 评论