电商大促时,短时间内有大量订单涌入到系统,在这种高并发的情况下,我们需要给这些订单先打上一个唯一ID,再入数据库,而且还希望这个唯一ID能带上时间信息。这就是我们本文的snowflake唯一ID算法的作用,雪花算法snowflake是Twitter公司提出的唯一ID算法,广泛应用在各种业务系统中,而由snowflake的启发,衍生出很多改进算法,比如索尼公司的sonyflake算法。
SnowFlake算法
datacenter_id sequence_id
unused
│ │
│ │ │
│ │ │
│ │ │ │ │
│ │ │ │ │
▼ │◀────────────────── 41 bits ────────────────────▶│ ▼ ▼
┌─────┼──────────────────────────────────────────────────────┼────────┬────────┬────────────────┐
│ 0 │ 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0 │ 00000 │ 00000 │ 0000 0000 0000 │
└─────┴──────────────────────────────────────────────────────┴────────┴────────┴────────────────┘
▲ ▲
│ │
│ │
│ │
│ │
│ │
│ │
time in milliseconds worker_id
如图所示为snowflake算法使用的一个64 bit的整型数据,被划分为四部分。
- 不含开头的第一个bit,因为是符号位;
- 41bit来表示收到请求时的时间戳,精确到1毫秒;
- 5bit表示数据中心的id, 5bit表示机器实例id
- 共计10bit的机器位,因此能部署在1024台机器节点上生成ID;
- 12bit循环自增序列号,增至最大后归0,1毫秒最大生成唯一ID的数量是4096个。
这种机制下,timestamp的41位可以支持我们使用69年。同一台机器下,同一毫秒产生2^12=4096条消息,一秒就是409.6w条消息。且可以部署1024台机器实例。
SonyFlake算法
sonyflake算法是索尼公司基于snowflake改进的一个分布式唯一ID生成算法。基本思路和snowflake一致,不过位分配上略有不同。
+-----------------------------------------------------------------------------+
| 1 Bit Unused | 39 Bit Timestamp | 8 Bit Sequence ID | 16 Bit Machine ID |
+-----------------------------------------------------------------------------+
这里时间戳用39位精确到10ms,所以可以达到174年,比snowflake的长很久。
8bit 做为序列号,每10毫最大生成256个,1秒最多生成25600个,比原生的Snowflake少好多,如果感觉不够用,目前的解决方案是跑多个实例生成同一业务的ID来弥补。
16bit 做为机器号,默认的是当前机器的私有IP的最后两位。
总结
对比两种算法,感觉sonyflake对于snowflake的改进有些像是用空间换时间,时间戳位数减少,以从69年升至174年。但是1秒最多生成的ID从409.6w降至2.56w条。
所以在我们实际的业务场景下,需要根据高并发的需求来进行选择。