Hive
柳书生
这个作者很懒,什么都没留下…
展开
-
hive优化实战
hive超大数据量优化:原理:左表关联字段key使用随机函数拼接n个整数,打散key,减少每个key生成reduce的个数,右表翻n倍,关联后产生大量key的reduce被分散到n个reduce里面。实现:使用随机函数rand(),实例为int(round(rand()))随机生成0和1整数,左表(总数据量n)关联字段拼接随机数0-1两个,concat(a.nameid,int(round(rand()))),右表数据量翻1倍(关联字段nameid数据a拼接0为a0(总数据量n),a拼接1为a1原创 2021-07-15 10:17:57 · 219 阅读 · 0 评论 -
hive sql执行顺序
mysql和hive的sql执行顺序对比msyql语句执行顺序代码写的顺序:select ... from... where.... group by... having... order by.. 或者from ... select ...代码的执行顺序:from... where...group by... having.... select ... order by...hive 语句执行顺序from … where … group by … having … selec原创 2021-07-11 17:31:59 · 664 阅读 · 1 评论 -
Hive条件在on和where后面区别
hive左关联时过滤条件在on和where后面的区别原创 2021-07-09 20:17:19 · 1459 阅读 · 3 评论