Hive、MapReduce、Spark分布式生成唯一数值型ID

本文介绍了在大数据处理场景下,如何在Hive、MapReduce和Spark中生成唯一的数值型ID。对于大量数据,文章提出了一种非连续唯一ID的生成方法,尤其在Spark中,利用zipWithUniqueId()函数可以轻松实现。同时,提供了Hive自定义UDF RowSeq2,通过Map Task ID和Map数计算ID,确保ID唯一性。这种方法在不需连续ID的情况下,避免了单个Reduce处理大量数据的性能问题。
摘要由CSDN通过智能技术生成

在实际业务场景下,经常会遇到在Hive、MapReduce、Spark中需要生成唯一的数值型ID。

一般常用的做法有:

  1. MapReduce中使用1个Reduce来生成;
  2. Hive中使用row_number分析函数来生成,其实也是1个Reduce;
  3. 借助HBase或Redis或Zookeeper等其它框架的计数器来生成;

数据量不大的情况下,可以直接使用1和2方法来生成,但如果数据量巨大,1个Reduce处理起来就非常慢。

在数据量非常大的情况下,如果你仅仅需要唯一的数值型ID,注意:不是需要”连续的唯一的数值型ID”,那么可以考虑采用本文中介绍的方法,否则,请使用第3种方法来完成。

Spark中生成这样的非连续唯一数值型ID,非常简单,直接使用zipWithUniqueId()即可。

关于zipWithUniqueId,更多精彩内容 点我学

 

参考zipWithUniqueId()的方法,在MapReduce和Hive中,实现如下:

lxw1234

在Spark中,zipWithUniqueId是通过使用分区Index作为每个分区ID的开始值,在每个分区内,ID增长的步长为该RDD的分区数,那么在MapReduce和Hive中,也可以照此思路实现,Spark中的分区数,即为MapReduce中的Map数,Spark分区的Index,即为Map Task的ID。Map数,可以通过JobConf的getNumMapTasks(),而Map Task ID,可以通过参数mapred.task.id获取,格式如:attempt_1478926768563_0537_m_000004_0,截取m_000004_0中的4,再加1,作为该Map Task的ID起始值。注意:这两个只均需要在Job运行时才能获取。另外,从图中也可以看出,每个分区/Map Task中的数据量不是绝对一致的,因此

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值