Hive实现自增列

最新推荐文章于 2024-07-05 14:14:34 发布

weichao9999

最新推荐文章于 2024-07-05 14:14:34 发布

阅读量5.2k

点赞数

分类专栏： hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weichao9999/article/details/82112930

版权

hive 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1、用row_number()函数生成代理键

INSERT OVERWRITE TABLE testTable

select row_number() over (order by a.acc_no) id,

a.acc_no

from ba_pay_out.app_intf_web_cli_his_view a

2、用UDFRowSequence生成代理键

add jar viewfs://hadoop-meituan/user/hadoop-data/user_upload/weichao05_hive-contrib-3.1.0.jar;

create temporary function row_sequence as 'org.apache.hadoop.hive.contrib.udf.UDFRowSequence';

INSERT OVERWRITE TABLE testTable

select row_sequence() id,

a.acc_no

from ba_pay_out.app_intf_web_cli_his_view a

hive-contrib-3.1.0.jar中包含一个生成记录序号的自定义函数udfrowsequence。上面的语句先加载JAR包，然后创建一个名为row_sequence()的临时函数作为调用UDF的接口，这样可以为查询的结果集生成一个自增伪列。之后就和row_number()写法类似了，只不过将窗口函数row_number()替换为row_sequence()函数。

以上两种方法，第二种的性能要由于第一种，第一种执行慢，且当数据超过约几千万（本人经验超过4千万）时，就报内存不够的了，这个可能与hadoop的资源配置也有关系，而第二中方法在数据超过1.5亿的情况下依然能够快速运行。

两种方式的区别：

第一种是整个数据集进行排序，序号在这次排序中是连续的唯一的，第二种是按任务排序，并发的任务都会从1开始各自排序，所以序号是重复的，所以各有利弊，第二种方式可以考虑扩展使用redis进行序号逻辑管理，这样应该也能完成连续的唯一序号。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

weichao9999 CSDN认证博客专家 CSDN认证企业博客

码龄21年

24: 原创

23万+: 周排名

197万+: 总排名

8万+: 访问

: 等级

857: 积分

113: 粉丝

20: 获赞

26: 评论

81: 收藏

私信

关注

热门文章

分类专栏

最新评论

在PowerDesigner中应用达梦数据库
a515370: 不行, 本来还不会报错, 设置后报错了
MinIO-rpm离线安装
喜欢丶听网易云写代码: 博主你好，如果要自定义日志地址，如何设置
MinIO-rpm离线安装
小L72: 您好麻烦问一下我账号密码设置root登录，在前端登录时显示登录无效是因为什么呢？
MinIO-rpm离线安装
weichao9999: TimeoutSec 修改为 TimeoutStopSec 估计是参数名称搞错了
MinIO-rpm离线安装
weichao9999: 新版本有个参数名称错了，需要修改一下，不知道你遇到的是不是这个问题，文档我已经修改了，你可以参考实验一下

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

weichao9999 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。