雪花算法：分布式唯一 ID 生成利器

最新推荐文章于 2024-09-14 09:11:15 发布

「已注销」

最新推荐文章于 2024-09-14 09:11:15 发布

阅读量5.6k

点赞数 3

文章标签：算法分布式 java 编程语言面试

原文链接：https://mp.weixin.qq.com/s?__biz=MzA4MjIyNTY0MQ==&mid=2647743825&idx=1&sn=23ca6bd8e99247e4a1a619060617b28d&chksm=87ad0dd7b0da84c145002dd172712ce33e0901e25aca9a1d7116a36f62738e3e45f5a78b3d2e&scene=126&&sessionid=0

版权

无论是在分布式系统中的 ID 生成，还是在业务系统中请求流水号这一类唯一编号的生成，都是软件开发人员经常会面临的一场景。而雪花算法便是这些场景的一个解决方案。

以分布式 ID 为例，它的生成往往会在唯一性、递增性、高可用性、高性能等方面都有所要求。并且在业务处理时，还要防止爬虫根据 ID 的自增进行数据爬取。而雪花算法，在这些方面表现得都不错。

市面上比较常见的分布式 ID 生成算法及类库有如下 4 种：

UUID ：Java 自带 API，生成一串唯一随机 36 位字符串（32 个字符串 + 4 个 “-”）。可以保证唯一性，但可读性差，无法有序递增。
SnowFlake ：雪花算法，Twitter 开源的由 64 位整数组成分布式 ID，性能较高，并且在单机上递增。GitHub 上官方地址：https://github.com/twitter-archive/snowflake/tree/snowflake-2010 。
UidGenerator ：百度开源的分布式 ID 生成器，基于雪花算法。GitHub 参考链接：https://github.com/baidu/uid-generator/blob/master/README.zh_cn.md 。该项目的说明文档及测试案例都值得深入学习一下。
Leaf ：美团开源的分布式 ID 生成器，能保证全局唯一，趋势递增，但需要依赖关系数据库、Zookeeper 等中间件。相关实现可参考该文：https://tech.meituan.com/2017/04/21/mt-leaf.html 。

今天我们重点关注「雪花算法」这种分布式 ID 的生成方式。

雪花（snowflake），美丽、独特又变幻莫测。在大自然中几乎找不到两片完全一样的雪花。雪花的这些特性正好在雪花算法上有所展示。

SnowFlake 算法是 Twitter 开源的分布式 ID 生成算法。核心思想就是：使用一个 64 bit 的 long 型的数字作为全局唯一 ID。

算法中还引入了时间戳，基本上保证了自增特性。最初的版本的雪花算法是基于 scala 写的，当然，不同的编程语言都可以根据其算法逻辑进行实现。

算法原理

SnowFlake 算法生成 ID 的结果是一个 64bit 大小的整数，结构如下图：

算法解析：

第一个部分：1 个 bit。 无意义，固定为 0。二进制中最高位是符号位，1 表示负数，0 表示正数。ID 都是正整数，所以固定为 0。
第二个部分：41 个 bit。 表示时间戳，精确到毫秒，可以使用 69 年。时间戳带有自增属性。
第三个部分：10 个 bit。 表示 10 位的机器标识，最多支持 1024 个节点。此部分也可拆分成 5 位 datacenterId 和 5 位 workerId，datacenterId 表示机房 ID，workerId 表示机器 ID。
第四部分：12 个 bit。 表示序列化，即一些列的自增 ID，可以支持同一节点同一毫秒生成最多 4096 个 ID 序号。

由于在 Java 中 64bit 的整数是 long 类型，所以在 Java 中 SnowFlake 算法生成的 id 就是 long 来存储的。

Java 实现

雪花算法 Java 工具类实现：

public class SnowFlake {

 /**
  * 起始的时间戳（可设置当前时间之前的邻近时间）
  */
 private final static long START_STAMP = 1480166465631L;

 /**
  * 序列号占用的位数
  */
 private final static long SEQUENCE_BIT = 12;
 /**
  * 机器标识占用的位数
  */
 private final static long MACHINE_BIT = 5;
 /**
  * 数据中心占用的位数
  */
 private final static long DATA_CENTER_BIT = 5;

 /**
  * 每一部分的最大值
  */
 private final static long MAX_DATA_CENTER_NUM = ~(-1L << DATA_CENTER_BIT);
 private final static long MAX_MACHINE_NUM = ~(-1L << MACHINE_BIT);
 private final static long MAX_SEQUENCE = ~(-1L << SEQUENCE_BIT);

 /**
  * 每一部分向左的位移
  */
 private final static long MACHINE_LEFT = SEQUENCE_BIT;
 private final static long DATA_CENTER_LEFT = SEQUENCE_BIT + MACHINE_BIT;
 private final static long TIMESTAMP_LEFT = DATA_CENTER_LEFT + DATA_CENTER_BIT;

 /**
  * 数据中心ID(0~31)
  */
 private final long dataCenterId;
 /**
  * 工作机器ID(0~31)
  */
 private final long machineId;
 /**
  * 毫秒内序列(0~4095)
  */
 private long sequence = 0L;
 /**
  * 上次生成ID的时间截
  */
 private long lastStamp = -1L;

 public SnowFlake(long dataCenterId, long machineId) {
  if (dataCenterId > MAX_DATA_CENTER_NUM || dataCenterId < 0) {
   throw new IllegalArgumentException("dataCenterId can't be greater than MAX_DATA_CENTER_NUM or less than " +
     "0");
  }
  if (machineId > MAX_MACHINE_NUM || machineId < 0) {
   throw new IllegalArgumentException("machineId can't be greater than MAX_MACHINE_NUM or less than 0");
  }
  this.dataCenterId = dataCenterId;
  this.machineId = machineId;
 }

 /**
  * 产生下一个ID
  */
 public synchronized long nextId() {
  long currStamp = getNewStamp();
  if (currStamp < lastStamp) {
   throw new RuntimeException("Clock moved backwards.  Refusing to generate id");
  }

  if (currStamp == lastStamp) {
   //相同毫秒内，序列号自增
   sequence = (sequence + 1) & MAX_SEQUENCE;
   //同一毫秒的序列数已经达到最大
   if (sequence == 0L) {
    //阻塞到下一个毫秒,获得新的时间戳
    currStamp = getNextMill();
   }
  } else {
   //不同毫秒内，序列号置为0
   sequence = 0L;
  }

  lastStamp = currStamp;

  // 移位并通过或运算拼到一起组成64位的ID
  return (currStamp - START_STAMP) << TIMESTAMP_LEFT //时间戳部分
    | dataCenterId << DATA_CENTER_LEFT       //数据中心部分
    | machineId << MACHINE_LEFT             //机器标识部分
    | sequence;                             //序列号部分
 }

 private long getNextMill() {
  long mill = getNewStamp();
  while (mill <= lastStamp) {
   mill = getNewStamp();
  }
  return mill;
 }

 private long getNewStamp() {
  return System.currentTimeMillis();
 }

 public static void main(String[] args) {
  SnowFlake snowFlake = new SnowFlake(11, 11);

  long start = System.currentTimeMillis();
  for (int i = 0; i < 10; i++) {
   System.out.println(snowFlake.nextId());
  }

  System.out.println(System.currentTimeMillis() - start);
 }
}

上述代码中，在算法的核心方法上，通过加 synchronized 锁来保证线程安全。这样，同一服务器线程是安全的，生成的 ID 不会出现重复，而不同服务器由于机器码不同，就算同一时刻两台服务器都产生了雪花 ID，结果也是不一样的。

为什么最长是 69 年？

上面我们说过，64 位的雪花算法 ID 只能支持 69 年，为什么呢？这是因为 41 位的二进制，其最大的时间戳，转化成年就只有 69 年，即：(2^{41}-1) / (1000 * 60 * 60 * 24 *365) = 69 年。

我们可以用如下代码验证一下：

public static void main(String[] args) {
   //41位二进制最小值
   String minTimeStampStr = "00000000000000000000000000000000000000000";
   //41位二进制最大值
   String maxTimeStampStr = "11111111111111111111111111111111111111111";
   //转10进制
   long minTimeStamp = new BigInteger(minTimeStampStr, 2).longValue();
   long maxTimeStamp = new BigInteger(maxTimeStampStr, 2).longValue();
   //一年总共多少毫秒
   long oneYearMills = 1L * 1000 * 60 * 60 * 24 * 365;
   //算出最大可以多少年
   System.out.println((maxTimeStamp - minTimeStamp) / oneYearMills);
}

所以，雪花算法生成的 ID 只能保证 69 年内不会重复，如果超过 69 年的话，那就考虑换个服务器（服务器 ID）部署，并且要保证该服务器的 ID 和之前都没有重复过。