大数据之Hive_随风不随水的博客-CSDN博客

大数据之Hive

关注

文章平均质量分 80

总结日常工作所遇到的问题，解决办法，以及巩固以往知识。

关注数：文章数：2 文章阅读量：1256 文章收藏量：5

作者: 随风不随水

软考中级-软件设计师，星环大数据工程师认证，参与编写的数据工程方案，已通过中国信通院4A认证（国内不超过10家），参与电商，文旅，教育，医疗等数仓建设，做过to C,to B,to G的项目，能感觉到开发项目和交付项目的差异性。为了学大数据翻遍了互联网，发现都是常见字眼，核心干货并不多。。。，同一句话，复制粘贴了1000遍，1000遍。所以自己的博客，只想写点独家干货+部分日常的记录

展开

解决：10亿条数据，分区太多，T级数据量，数据执行失败

背景：最近想要抽出日志数据（1.3T左右），统计商品的pv，uv，收藏，加车，分享，销售数等等，根据这些信息加权，用于商品推荐。查看sparkui界面，发现数据分布在各台机器上比较均匀，但是shuffle read时间太长在查表时，执行不出来，我推测是由于分区数太多引起，并且数据量太大。解决： 1.将数据按天去抽取到一张中间表里（1）可以建立一张表，不带分区，里面包含所有天的数据，然后where ds 按月 insert into 到表中，例如 ds >= 2020-01-01 and ds

原创 2020-12-24 17:35:16 · 1054 阅读 · 1 评论
hive数据倾斜，非复制粘贴，确切实用

最近做宽表，insert overwrite table … select 导入数据时，发生了数据倾斜情况通过ui界面看到，有一半的数据，都跑在了单个节点上，执行的时候，报错，11.3G超出物理内存限制的11G。百度搜了一下，hive数据倾斜，全部都是复制粘贴。。。内容都是那几句，空值过滤，设置mapjoin，负载均衡，空值时随机数分配，预聚合，上面该操作的，我都操作过了，依然无法解决。排查–引起数据倾斜的key 我的解决方案是，首先找出产生数据倾斜的key值，在sparkUI界面上，看执行情况，

原创 2020-12-11 17:56:11 · 202 阅读 · 1 评论

大数据之Hive

作者: 随风不随水

解决：10亿条数据，分区太多，T级数据量，数据执行失败

hive数据倾斜，非复制粘贴，确切实用