Hive应用：设置字段自增

最新推荐文章于 2023-10-07 01:47:53 发布

weixin_34192993

最新推荐文章于 2023-10-07 01:47:53 发布

阅读量1.9k

点赞数

文章标签：大数据数据库 python

原文链接：https://my.oschina.net/u/3754001/blog/1926128

版权

语法：

ROW_NUMBER() OVER(PARTITION BY COLUMN ORDER BY COLUMN)

简单的说row_number()从1开始，为每一条分组记录返回一个数字，这里的ROW_NUMBER() OVER (ORDER BY xlh DESC) 是先把xlh列降序，再为降序以后的每条xlh记录返回一个序号。

以上是row_number() over()的基本用法，下面本人就给他赋予一个新的用法。

当你要往一个表中导入数据时，需要一个自增的id字段，那么就需要使用以下两个函数搭配产生：row_number() over()

如果什么参数都不加，直接使用这两个字段，那么直接产生的是从1开始增加的数字。

例如：

insert into table User_Attribute select row_number() over() as id,customid from tbl_custom;

如果单独使用函数row_number()，则会报错，错误内容如下：

FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: Only COMPLETE mode supported for row_number function

那么上面的自增完成了，肯定会有指定一个基数进行自增的需求，这个时候怎么办呢？

本人曾经试着在两个方法的括号里填写参数，实在是做不到，那么本人就从另一个角度进行思考，想出了如下格式的方式：

(row_number() over())+number

number即为你指定的基数，上面的语句就可以写成如下：

insert into table User_Attribute select (row_number() over())+1000 as id,customid from tbl_custom;

那么此时插入Hive表中的数据就是从1000开始增加的ID。插入的下一条的id就为1001，依次递增。

转载于:https://my.oschina.net/u/3754001/blog/1926128

关注