分布式ID生成方式之雪花算法

最新推荐文章于 2024-05-30 11:10:40 发布

江哥说

最新推荐文章于 2024-05-30 11:10:40 发布

阅读量355

点赞数

分类专栏：架构

本文链接：https://blog.csdn.net/IT_townlet/article/details/104427043

版权

架构专栏收录该内容

4 篇文章 0 订阅

订阅专栏

在数据量不大的情况下，单库单表完全满足现有业务，但是随着数据日益增大，分库分表是必然的操作，这时候继续用数据库的自增ID无法满足需求，因为假如有多张表都是存订单的信息，每个表都是自增的ID，那就会出现重复的ID号了，当然可以设置表的步长，比如表1的ID从1开始，每隔两步增长一次。表2的ID从2开始，那么他们的ID就会是1,3,5,7,9…，2,4,6,8,10…，但是这样后续的扩容也是很麻烦的事情，比如表的继续增加咋办，依然不是好的解决办法。

如果要得到一个全局唯一的ID，首先估计会想到使用UUID，生成方法很简单：String uuid = UUID.randomUUID().toString()；得到的结果类似这样：b8375e0f-4853-4f5c-9133-2ed64e7e7d87，这样的字符串用来做主键的话是不符合mysql的索引原则的，之前的文章有专门写过mysql索引的原则，因为mysql在生成索引树的时候是要计算左右子树的大小的，这样的ID做主键会使mysql的存储和查询效率变得很低。

雪花算法（Snowflake）

Snowflake的ID组成结构
1位标
41位时间截(毫秒级)。
10位的数据机器位
12位序列
整体上按照时间自增排序，并且整个分布式系统内不会产生ID碰撞，并且效率高。
网上找的开源雪花算法的实现

public class SnowflakeIdWorker {
	/** 开始时间截 */
	private final long twepoch = 1420041600000L;

	/** 机器id所占的位数 */
	private final long workerIdBits = 5L;

	/** 数据标识id所占的位数 */
	private final long datacenterIdBits = 5L;

	/** 支持的最大机器id，结果是31 (这个移位算法可以很快的计算出几位二进制数所能表示的最大十进制数) */
	private final long maxWorkerId = -1L ^ (-1L << workerIdBits);

	/** 支持的最大数据标识id，结果是31 */
	private final long maxDatacenterId = -1L ^ (-1L << datacenterIdBits);

	/** 序列在id中占的位数 */
	private final long sequenceBits = 12L;

	/** 机器ID向左移12位 */
	private final long workerIdShift = sequenceBits;

	/** 数据标识id向左移17位(12+5) */
	private final long datacenterIdShift = sequenceBits + workerIdBits;

	/** 时间截向左移22位(5+5+12) */
	private final long timestampLeftShift = sequenceBits + workerIdBits + datacenterIdBits;

	/** 生成序列的掩码，这里为4095 (0b111111111111=0xfff=4095) */
	private final long sequenceMask = -1L ^ (-1L << sequenceBits);

	/** 工作机器ID(0~31) */
	private long workerId;

	/** 数据中心ID(0~31) */
	private long datacenterId;

	/** 毫秒内序列(0~4095) */
	private long sequence = 0L;

	/** 上次生成ID的时间截 */
	private long lastTimestamp = -1L;


	/**
	 * 构造函数
	 * @param workerId 工作ID (0~31)
	 * @param datacenterId 数据中心ID (0~31)
	 */
	public SnowflakeIdWorker(long workerId, long datacenterId) {
		if (workerId > maxWorkerId || workerId < 0) {
			throw new IllegalArgumentException(String.format("worker Id can't be greater than %d or less than 0", maxWorkerId));
		}
		if (datacenterId > maxDatacenterId || datacenterId < 0) {
			throw new IllegalArgumentException(String.format("datacenter Id can't be greater than %d or less than 0", maxDatacenterId));
		}
		this.workerId = workerId;
		this.datacenterId = datacenterId;
	}


	/**
	 * 获得下一个ID (该方法是线程安全的)
	 * @return SnowflakeId
	 */
	public synchronized long nextId() {
		long timestamp = timeGen();

		//如果当前时间小于上一次ID生成的时间戳，说明系统时钟回退过这个时候应当抛出异常
		if (timestamp < lastTimestamp) {
			throw new RuntimeException(
					String.format("Clock moved backwards.  Refusing to generate id for %d milliseconds", lastTimestamp - timestamp));
		}

		//如果是同一时间生成的，则进行毫秒内序列
		if (lastTimestamp == timestamp) {
			sequence = (sequence + 1) & sequenceMask;
			//毫秒内序列溢出
			if (sequence == 0) {
				//阻塞到下一个毫秒,获得新的时间戳
				timestamp = tilNextMillis(lastTimestamp);
			}
		}
		//时间戳改变，毫秒内序列重置
		else {
			sequence = 0L;
		}

		//上次生成ID的时间截
		lastTimestamp = timestamp;

		//移位并通过或运算拼到一起组成64位的ID
		return ((timestamp - twepoch) << timestampLeftShift) //
				| (datacenterId << datacenterIdShift) //
				| (workerId << workerIdShift) //
				| sequence;
	}

	/**
	 * 阻塞到下一个毫秒，直到获得新的时间戳
	 * @param lastTimestamp 上次生成ID的时间截
	 * @return 当前时间戳
	 */
	protected long tilNextMillis(long lastTimestamp) {
		long timestamp = timeGen();
		while (timestamp <= lastTimestamp) {
			timestamp = timeGen();
		}
		return timestamp;
	}

	/**
	 * 返回以毫秒为单位的当前时间
	 * @return 当前时间(毫秒)
	 */
	protected long timeGen() {
		return System.currentTimeMillis();
	}

	/** 测试 */
	public static void main(String[] args) {
		SnowflakeIdWorker idWorker = new SnowflakeIdWorker(0, 0);
		long id = idWorker.nextId();
		System.out.println(id);
	}
}

此算法可以作为工具类使用，这样就可以生成全局唯一ID，基于此雪花算法，国内的大厂也开发了类似的分布式生成器，比如百度的uid-generator，美团Leaf，滴滴Tinyid等，其实原理都差不多

江哥说

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分布式ID生成方式之雪花算法

在数据量不大的情况下，单库单标完全满足现有业务，但是随着数据日益增大，分库分表是必然的操作，如果这时候用数据库的自增ID无法满足需求，因为假如有多张表都是存订单的信息，每个表都是自增的ID，那就会出现重复的ID号了，当然可以设置表的步长，比如表1的ID从1开始，每隔两步增长一次。表2的ID从2开始，那么他们的ID就会是1,3,5,7,9.......，2,4,6,8,10.....，但是这样后续...
复制链接

扫一扫

专栏目录