1、用row_number()函数生成代理键
INSERT OVERWRITE TABLE testTable
select row_number() over (order by a.acc_no) id,
a.acc_no
from ba_pay_out.app_intf_web_cli_his_view a
2、用UDFRowSequence生成代理键
add jar viewfs://hadoop-meituan/user/hadoop-data/user_upload/weichao05_hive-contrib-3.1.0.jar;
create temporary function row_sequence as 'org.apache.hadoop.hive.contrib.udf.UDFRowSequence';
INSERT OVERWRITE TABLE testTable
select row_sequence() id,
a.acc_no
from ba_pay_out.app_intf_web_cli_his_view a
hive-contrib-3.1.0.jar中包含一个生成记录序号的自定义函数udfrowsequence。上面的语句先加载JAR包,然后创建一个名为row_sequence()的临时函数作为调用UDF的接口,这样可以为查询的结果集生成一个自增伪列。之后就和row_number()写法类似了,只不过将窗口函数row_number()替换为row_sequence()函数。
以上两种方法,第二种的性能要由于第一种,第一种执行慢,且当数据超过约几千万(本人经验超过4千万)时,就报内存不够的了,这个可能与hadoop的资源配置也有关系,而第二中方法在数据超过1.5亿的情况下依然能够快速运行。
两种方式的区别:
第一种是整个数据集进行排序,序号在这次排序中是连续的唯一的,第二种是按任务排序,并发的任务都会从1开始各自排序,所以序号是重复的,所以各有利弊,第二种方式可以考虑扩展使用redis进行序号逻辑管理,这样应该也能完成连续的唯一序号。