hive:空key转换

最新推荐文章于 2022-11-10 22:45:00 发布

Chelseady

最新推荐文章于 2022-11-10 22:45:00 发布

阅读量678

点赞数

分类专栏： hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chelseady/article/details/104271253

版权

hive 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

有时虽然某个 key 为空对应的数据很多，但是相应的数据不是异常数据，必须要包含在
join 的结果中，此时我们可以表 a 中 key 为空的字段赋一个随机的值，使得数据随机均匀地
分不到不同的 reducer 上。

实例：

不随机分布空 null 值：
（1）设置 5 个 reduce 个数
set mapreduce.job.reduces = 5;
（2） JOIN 两张表
insert overwrite table jointable
select n.* from nullidtable n left join ori b on n.id = b.id;
结果：出现了数据倾斜，某些 reducer 的资源消耗远大于其他 reducer。

随机分布空 null 值
（1）设置 5 个 reduce 个数
set mapreduce.job.reduces = 5;
（2） JOIN 两张表
insert overwrite table jointable
select n.* from nullidtable n full join ori o on
case when n.id is null then concat('hive', rand()) else n.id end
= o.id;
结果：消除了数据倾斜，负载均衡 reducer 的资源消耗

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
hive:空key转换

有时虽然某个 key 为空对应的数据很多，但是相应的数据不是异常数据，必须要包含在join 的结果中，此时我们可以表 a 中 key 为空的字段赋一个随机的值，使得数据随机均匀地分不到不同的 reducer 上。实例：不随机分布空 null 值：（1）设置 5 个 reduce 个数set mapreduce.job.reduces = 5;（2） JOIN 两张表insert...
复制链接

扫一扫

专栏目录

Chelseady CSDN认证博客专家 CSDN认证企业博客

码龄9年

90: 原创

6万+: 周排名

124万+: 总排名

18万+: 访问

: 等级

2694: 积分

37: 粉丝

81: 获赞

32: 评论

663: 收藏

私信

关注

热门文章

分类专栏

JAVA 9篇
python 35篇
机器学习 16篇
NLP 5篇
SQL 2篇
tensorflow 3篇
hive 4篇
数据分析
C/C++ 4篇
算法 4篇
spark 8篇

最新评论

python实现BP神经网络
tutututututu1234: 请问一下改了测试集，最终预测结果都是1是怎么回事呀
C++中头文件的作用
iiiiiiimp: 谢谢博主
NLP:用word2vec分析文本相似度
陌笙Shreya: 四、计算文本相似度中如果使用pycharm的需要将第3行“import analyse from jieba”改为“from jieba import analyse”
NLP:用word2vec分析文本相似度
陌笙Shreya: 如果出现报错TypeError: 'Word2Vec' object is not subscriptable 可以将计算文本向量的代码中model[first_word]改为model.wv[first_word]
NLP:用word2vec分析文本相似度
weeo: 改成 model.wv.__contains__ 不过这个代码错误好多，这个改好了还有其他的。我都还没跑成功

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。