Hive中生成自增序列的常用方法

Relian哈哈

已于 2023-10-07 01:50:42 修改

阅读量3k

点赞数

分类专栏： Hive Hadoop 文章标签： hive 数据仓库 hive自增序列

于 2023-10-07 01:47:53 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lzxlfly/article/details/133627240

版权

Hive 同时被 2 个专栏收录

12 篇文章 2 订阅

订阅专栏

5 篇文章 1 订阅

订阅专栏

在日常业务开发过程中，通常遇到需要hive数据表中生成一列唯一ID，当然连续递增的更好。

最近在结算业务中，需要在hive表中生成一列连续且唯一的账单ID，于是就了解生成唯一ID的方法

1. 利用row_number函数

语法：row_number() over(order by step)+start_num

step表示每次递增多少

start_num表示从哪个值开始递增，不写默认是0

如下：表示从10000开始，每次递增1

SELECT row_number() over(order by 1)+10000

因此输出是10001

如果有其他值，也可以拼接其它值，比如列date是20231010

SELECT CONCAT(date,row_number() over(order by 1)+10000) AS auto_increment_id

因此输出是2023101010001

2. 利用自定义函数序列

首先Hive环境要有hive-contrib相关jar包

定义函数row_sequence

create temporary function row_sequence as 'org.apache.hadoop.hive.contrib.udf.UDFRowSequence';

使用函数row_sequence

SELECT row_sequence() AS auto_increment_id

row_sequence的自增规则是我们自己定义的，至于怎么定义，就看我们的逻辑是怎么实现

3、二者区别

第一种方法row_number

在一次SQL运行中是全局递增的，只不过再次执行SQL就会重复，如果不想重复我们可以更改start_num的值，把start_num调整到我们认为的不会重复的值开始

或者拼接上日期或者时间戳等前缀，这样每次执行就不会重复

第二种方法UDFRowSequence

由于是我们自己定义的函数，而SQL任务是以分布式的运行的，一个SQL并发可能会有多个job执行，每个job可以理解为1个节点或者进程，在每个进程上运营的序列都从起始值开始，所以不能保证序号全局连续唯一。因此我们可以借助第三方存储记录，比如Redis，来保证生产序列的全局连续递增

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Hive中生成自增序列的常用方法

在日常业务开发过程中，通常遇到需要hive数据表中生成一列唯一ID，当然连续递增的更好。最近在结算业务中，需要在hive表中生成一列连续且唯一的账单ID，于是就了解生成唯一ID的方法
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。