最近有一个小的需求,对hive表中数据生成一个id,希望对于A列数据,相同的值由相同的ID,由于在sql中一直用row_number() 比较多,但是这个函数并不能满足这个需求,因此找到到了rank() 函数,同时还有dense_rank()函数。
这三者相同点是都可以根据指定列生成序号,区别在于:
- row_number() : 序号不会重复,即使值相同也会是不同的序号
- rank(): 相同值有相同序号,但是由于总数不变,序号可能不连续,会出现 1,1,3,3,5这种序号
- dense_rank(): 相同值有相同序号并且序号连续