Twitter的snowflake算法

最新推荐文章于 2022-04-17 22:57:28 发布

hehmxy

最新推荐文章于 2022-04-17 22:57:28 发布

阅读量766

点赞数

分类专栏：算法文章标签： IT snowflake 生成唯一ID

本文链接：https://blog.csdn.net/hehmxy/article/details/83420182

版权

算法专栏收录该内容

6 篇文章 0 订阅

订阅专栏

摘要：

系统唯一ID是我们在设计一个系统的时候常常会遇见的问题，也常常为这个问题而纠结。生成ID的方法有很多，适应不同的场景、需求以及性能要求。

关于订单号的生成，一些比较简单的方案：

1、数据库自增长ID

优势：无需编码
缺陷：
大表不能做水平分表，否则插入删除时容易出现问题
高并发下插入数据需要加入事务机制
在业务操作父、子表（关联表）插入时，先要插入父表，再插入子表

2、时间戳+随机数

优势：编码简单
缺陷：随机数存在重复问题，即使在相同的时间戳下。每次插入数据库前需要校验下是否已经存在相同的数值。

3、时间戳+会员ID

优势：同一时间，一个用户不会存在两张订单
缺陷：会员ID也会透露运营数据，鸡生蛋，蛋生鸡的问题

4、GUID/UUID

优势：简单
劣势：用户不友好，索引关联效率较低。

今天要分享的方案：来自twitter的SnowFlake

snowflake是Twitter开源的分布式ID生成算法，结果是一个long型的ID。其核心思想是：使用41bit作为毫秒数，10bit作为机器的ID（5个bit是数据中心，5个bit的机器ID），12bit作为毫秒内的流水号（意味着每个节点在每毫秒可以产生 4096 个 ID），最后还有一个符号位，永远是0。

snowflake生成64的id，刚好使用long来保存，结构如下:
在这里插入图片描述
1位标识：由于long基本类型在Java中是带符号的，最高位是符号位，正数是0，负数是1，所以id一般是正数，最高位是0；

41位时间截：注意，41位时间截不是存储当前时间的时间截，而是存储时间截的差值（当前时间截 - 开始时间截得到的值），这里的的开始时间截，一般是我们的id生成器开始使用的时间，由我们程序来指定的（如下下面程序IdWorker类的startTime属性）。41位的时间截，可以使用69年，年T = (1L << 41) / (1000L * 60 * 60 * 24 * 365) = 69；

10位的数据机器位：可以部署在1024个节点，包括5位datacenterId和5位workerId；

12位序列：同一时间截，同一机器，可以生成4096个id。序列号就是一系列的自增id（多线程建议使用atomic），为了处理在同一毫秒内需要给多条消息分配id，若同一毫秒把序列号用完了，则“等待至下一毫秒”。

snowflake生成的ID整体上按照时间自增排序，并且整个分布式系统内不会产生ID碰撞。

最后贴上一段源码：

public class SnowFlake { // 起始的时间戳 private final static long START_STMP = 1480166465631L; // 每一部分占用的位数，就三个 private final static long SEQUENCE_BIT = 12;// 序列号占用的位数 private final static long MACHINE_BIT = 5; // 机器标识占用的位数 private final static long DATACENTER_BIT = 5;// 数据中心占用的位数 // 每一部分最大值 private final static long MAX_DATACENTER_NUM = -1L ^ (-1L << DATACENTER_BIT); private final static long MAX_MACHINE_NUM = -1L ^ (-1L << MACHINE_BIT); private final static long MAX_SEQUENCE = -1L ^ (-1L << SEQUENCE_BIT); // 每一部分向左的位移 private final static long MACHINE_LEFT = SEQUENCE_BIT; private final static long DATACENTER_LEFT = SEQUENCE_BIT + MACHINE_BIT; private final static long TIMESTMP_LEFT = DATACENTER_LEFT + DATACENTER_BIT; private long datacenterId; // 数据中心 private long machineId; // 机器标识 private long sequence = 0L; // 序列号 private long lastStmp = -1L;// 上一次时间戳 public SnowFlake(long datacenterId, long machineId) { if (datacenterId > MAX_DATACENTER_NUM || datacenterId < 0) { throw new IllegalArgumentException(“datacenterId can’t be greater than MAX_DATACENTER_NUM or less than 0”); } if (machineId > MAX_MACHINE_NUM || machineId < 0) { throw new IllegalArgumentException(“machineId can’t be greater than MAX_MACHINE_NUM or less than 0”); } this.datacenterId = datacenterId; this.machineId = machineId; } //产生下一个ID public synchronized long nextId() { long currStmp = getNewstmp(); if (currStmp < lastStmp) { throw new RuntimeException(“Clock moved backwards. Refusing to generate id”); } if (currStmp == lastStmp) { //if条件里表示当前调用和上一次调用落在了相同毫秒内，只能通过第三部分，序列号自增来判断为唯一，所以+1. sequence = (sequence + 1) & MAX_SEQUENCE; //同一毫秒的序列数已经达到最大，只能等待下一个毫秒 if (sequence == 0L) { currStmp = getNextMill(); } } else { //不同毫秒内，序列号置为0 //执行到这个分支的前提是currTimestamp > lastTimestamp，说明本次调用跟上次调用对比，已经不再同一个毫秒内了，这个时候序号可以重新回置0了。 sequence = 0L; } lastStmp = currStmp; //就是用相对毫秒数、机器ID和自增序号拼接 return (currStmp - START_STMP) << TIMESTMP_LEFT //时间戳部分 | datacenterId << DATACENTER_LEFT //数据中心部分 | machineId << MACHINE_LEFT //机器标识部分 | sequence; //序列号部分 } private long getNextMill() { long mill = getNewstmp(); while (mill <= lastStmp) { mill = getNewstmp(); } return mill; } private long getNewstmp() { return System.currentTimeMillis(); }

}

写个测试类：

public class Test { public static void main(String[] args) { // 构造方法设置机器码：第9个机房的第20台机器 SnowFlake snowFlake = new SnowFlake(9, 20); for(int i =0; i <(1<< 12); i++){ System.out.println(snowFlake.nextId()); } } }