二百三十八、Hive——Hive中为每条数据创建唯一ID

最新推荐文章于 2024-07-05 14:14:34 发布

天地风雷水火山泽

最新推荐文章于 2024-07-05 14:14:34 发布

阅读量839

点赞数 7

分类专栏： Hive 文章标签： hive hadoop 数据仓库

本文链接：https://blog.csdn.net/tiantang2renjian/article/details/139231678

版权

Hive 专栏收录该内容

42 篇文章 7 订阅

订阅专栏

一、目的

由于Kafka的JSON中缺少唯一的ID标识字段，因此发现后面的需求中DWD层表需要有一个唯一ID字段，这样才能与数据质量表更好的关联

二、Hive版本

尚硅谷的3.1.2版本

三、Hive创建唯一ID方法

网上的创建唯一ID方法有很多，这里展示一些，当然我并没有全部测试过

3.1 使用Hive的内置函数

Hive本身并没有直接为每条数据生成唯一ID的内置函数，但你可以结合使用Hive的内置函数和表的元数据来实现。例如，如果你有一个带有时间戳的列，你可以使用from_unixtime(unix_timestamp())函数结合其他列的值来生成一个相对唯一的值。但是，请注意这种方法并不保证全局唯一性。

3.2 使用Hive的Row_Number()窗口函数

如果你的数据已经按照某种顺序排序（例如，按照时间戳），你可以使用ROW_NUMBER()窗口函数为每条数据分配一个唯一的行号。但是，这要求你的数据在排序后保持不变，并且不适用于分布式环境中的并发写入。

3.3 使用Hive的UUID()函数（如果可用）

某些版本的Hive或Hive的某些扩展可能提供了生成UUID的函数。UUID是全局唯一标识符，通常用于在分布式系统中为实体分配唯一的ID。但是，请注意不是所有的Hive发行版都支持这个函数。

第一个测试的就是UUID()函数，发现Hive3.1.2这个版本支持这个函数，因此就使用这种方法，简单有效！

select
UUID() as id,
device_no, source_device_type, sn, model, create_time, lane_num, lane_no, lane_type, queue_count, queue_len, queue_head, queue_tail, day
from hurys_dc_dwd.dwd_queue_error
;