Hive实现自增列

最新推荐文章于 2023-10-08 16:04:39 发布

weixin_33697898

最新推荐文章于 2023-10-08 16:04:39 发布

阅读量227

点赞数

文章标签：大数据

原文链接：http://www.cnblogs.com/weichao9999/p/9546269.html

版权

1、用row_number()函数生成代理键

INSERT OVERWRITE TABLE testTable

select row_number() over (order by a.acc_no) id,

a.acc_no

from ba_pay_out.app_intf_web_cli_his_view a

2、用UDFRowSequence生成代理键

add jar viewfs://hadoop-meituan/user/hadoop-data/user_upload/weichao05_hive-contrib-3.1.0.jar;

create temporary function row_sequence as 'org.apache.hadoop.hive.contrib.udf.UDFRowSequence';

INSERT OVERWRITE TABLE testTable

select row_sequence() id,

a.acc_no

from ba_pay_out.app_intf_web_cli_his_view a

hive-contrib-3.1.0.jar中包含一个生成记录序号的自定义函数udfrowsequence。上面的语句先加载JAR包，然后创建一个名为row_sequence()的临时函数作为调用UDF的接口，这样可以为查询的结果集生成一个自增伪列。之后就和row_number()写法类似了，只不过将窗口函数row_number()替换为row_sequence()函数。

以上两种方法，第二种的性能要由于第一种，第一种执行慢，且当数据超过约几千万（本人经验超过4千万）时，就报内存不够的了，这个可能与hadoop的资源配置也有关系，而第二中方法在数据超过1.5亿的情况下依然能够快速运行。

转载于:https://www.cnblogs.com/weichao9999/p/9546269.html

weixin_33697898

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hive实现自增列

1、用row_number()函数生成代理键INSERT OVERWRITE TABLE testTableselect row_number() over (order by a.acc_no) id,a.acc_nofrom ba_pay_out.app_intf_web_cli_his_view a2、用UDFRowSequence生成代理键add jar vi...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。