Hive中小表与大表关联(join)的性能分析

最新推荐文章于 2024-05-11 08:46:25 发布

glgl2424

最新推荐文章于 2024-05-11 08:46:25 发布

阅读量2.1k

点赞数

分类专栏： Hadoop相关

Hadoop相关专栏收录该内容

22 篇文章 0 订阅

订阅专栏

http://blog.csdn.net/wisgood/article/details/17739177

这篇文章分析的很详细，配上了例子

得出的结果：

假设A.id=B.id,A表id=3的有N条，B表id=3的有M条，两个表关联时，reduce会处理id相同的记录，那reduce时比较的次数：

N*（1+M）

该公式可以验证博文中提到的各种例子，也可以证明为什么要把参与join的key（此处为id）重复记录较少的表放前面的原因，因为N++，或导致1+M次的增加。

补充的说法，跟join无关的、A、B表中不存在重复的key，都不会影响join的性能，所以不能简单的认为“把小表放前面”就能提高性能

比如A表中有一条记录id=4，而B表中没有id=4的记录，那不管A表中id=4的记录有多少条，都不会影响join性能

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hive中小表与大表关联(join)的性能分析

http://blog.csdn.net/wisgood/article/details/17739177 这篇文章
复制链接

扫一扫

专栏目录

glgl2424 CSDN认证博客专家 CSDN认证企业博客

码龄16年

59: 原创

24万+: 周排名

94万+: 总排名

10万+: 访问

: 等级

1698: 积分

37: 粉丝

13: 获赞

6: 评论

28: 收藏

私信

关注

热门文章

分类专栏

最新评论

JVM远程调试
jianfei111: so many option for the debug !!!
JVM远程调试
kkqqqq01: NB!
hadoop2.2.0的基础上配置hive0.12.0（支持mysql）
glgl2424: 引用「注意：mysql如果不做任何配置的话，开机的时候是不会自动启动的，需要手动启动，否则启动hive会报...」如果要用hadoop用户进入mysql，用下面这个命令： mysql -uhadoop -phadoop
hadoop2.2.0的基础上配置hive0.12.0（支持mysql）
glgl2424: 注意：mysql如果不做任何配置的话，开机的时候是不会自动启动的，需要手动启动，否则启动hive会报错。启动mysql需要用root账号，不能用hadoop账号
C3P0死锁问题的解决办法
glgl2424: ----后记根据实践发现，上述描述其实只是优化了配置，但并没有真正解决死锁的问题。前段时间解决一个数据库链接数过大的问题时，无意中发现了系统的一个bug，导致c3p0的链接数会不断的增大，或许这也是其中一个原因。现在修复了这个bug，死锁的问题也再没出现过，但并没有直接证据证明是这个问题引起的，问题具体情况，参见下文： http://blog.csdn.net/glgl2424/article/details/22789961

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。