生成以及用法
唯一键: 生成主要是依照运用的场景
可用有意义的唯一键+人手处理比如股票代码
也可以用没有业务意义的数据组成,一来可以脱敏,而来有些统计数据只想知道总数,并不需要知道由什么account组成,但是又要可以追溯
生成的办法
1)HEX()16进制函数
2)CRC32() 校验
3) INPUT__FILE__NAME以及BLOCK__OFFSET__INSIDE__FILE Hive的block 文件名+当前行首字节在当前快的偏移量(需要注意的是,如果block是TEXTFILE then 是偏移量,如果block store As orc then offset就不在是当前行在压缩快中的偏移量,而是一直为0,因此只有textfile适合用)
作用
select a.*
from
a
join
(select surrogate_key,min(seq_num) from a) b
on a.surrogate_key =b.surrogate_key
and a.seq_num=b.seq_num
–这样可以把每条数据都赋值上最小的序号
----也可以进行列裁剪
----同时最后可以利用key追溯每一步