分布式系统的ID生成方案

置顶 Memory_2020

已于 2024-04-08 19:31:53 修改

阅读量1.2k

点赞数 40

文章标签： java 分布式数据库

于 2024-02-22 07:30:00 首次发布

本文链接：https://blog.csdn.net/EverythingAtOnce/article/details/136210057

版权

在分布式系统中，唯一标识符（ID）的生成是一个重要的问题。传统的自增长主键在分布式系统中无法直接使用，因为每个节点都有可能生成重复的ID。因此，我们需要设计一种分布式系统中能够生成唯一ID的方案。本文将介绍几种常见的分布式ID生成方案，包括雪花算法、数据库序列、UUID等，并分析其优劣势，并结合 Java 代码和使用场景进行说明。

1. 雪花算法（Snowflake）

雪花算法是一种由 Twitter 设计的分布式唯一ID生成算法，它通过将64位的ID分解为不同的部分来保证唯一性。具体来说，雪花算法的64位ID组成如下：

1位符号位（始终为0）
41位的时间戳，精确到毫秒级别
10位的机器ID，用于区分不同的节点
12位的序列号，用于区分同一毫秒内的不同ID

优势：

高性能：生成的ID是递增的，可以按照时间顺序进行排序。
唯一性：雪花算法生成的ID在分布式系统中几乎是唯一的。
简单易用：实现简单，不依赖于外部系统。

劣势：

时钟回拨：如果系统时间发生回拨，可能会导致生成的ID不唯一。
单点故障：需要依赖于一个单点的机器ID生成器，可能成为系统的瓶颈。

public class SnowflakeIdGenerator {
    private static final long START_TIMESTAMP = 1628251600000L; // 2021-08-06 00:00:00
    private static final long MACHINE_ID_BITS = 10L;
    private static final long SEQUENCE_BITS = 12L;

    private static final long MAX_MACHINE_ID = -1L ^ (-1L << MACHINE_ID_BITS);
    private static final long MAX_SEQUENCE = -1L ^ (-1L << SEQUENCE_BITS);

    private static long machineId;
    private static long sequence = 0L;
    private static long lastTimestamp = -1L;

    public SnowflakeIdGenerator(long machineId) {
        if (machineId < 0 || machineId > MAX_MACHINE_ID) {
            throw new IllegalArgumentException("Machine ID must be between 0 and " + MAX_MACHINE_ID);
        }
        SnowflakeIdGenerator.machineId = machineId;
    }

    public synchronized long generateId() {
        long timestamp = System.currentTimeMillis();
        if (timestamp < lastTimestamp) {
            throw new RuntimeException("Clock moved backwards. Refusing to generate ID.");
        }

        if (timestamp == lastTimestamp) {
            sequence = (sequence + 1) & MAX_SEQUENCE;
            if (sequence == 0) {
                timestamp = tilNextMillis(lastTimestamp);
            }
        } else {
            sequence = 0L;
        }

        lastTimestamp = timestamp;

        return ((timestamp - START_TIMESTAMP) << (MACHINE_ID_BITS + SEQUENCE_BITS))
                | (machineId << SEQUENCE_BITS)
                | sequence;
    }

    private long tilNextMillis(long lastTimestamp) {
        long timestamp = System.currentTimeMillis();
        while (timestamp <= lastTimestamp) {
            timestamp = System.currentTimeMillis();
        }
        return timestamp;
    }
}

2. 数据库自增ID

数据库序列是一种常见的生成唯一ID的方法，在数据库中创建一个自增长的序列，每次需要生成新ID时，从序列中获取下一个值。

优势：

可靠性：数据库序列是数据库提供的原生功能，可以保证生成的ID的唯一性和顺序性。
支持性：几乎所有的数据库都支持序列。

劣势：

性能瓶颈：频繁的数据库访问可能会成为系统的性能瓶颈。
单点故障：数据库单点故障会影响整个系统的可用性。

// 使用数据库序列生成ID
public long generateId() {
    // 假设 sequence_table 是一个包含自增长序列的数据库表
    String sql = "SELECT nextval('sequence_table')";
    // 执行 SQL 查询并返回结果
}

3. UUID

UUID（Universally Unique Identifier）是一种通用唯一标识符，由128位的数字组成，通常表示为32位的十六进制字符串。UUID 是根据时间、节点和随机数等信息生成的，保证了在全球范围内的唯一性。

优势：

独立性：生成的ID不依赖于外部系统，可以在任何地方生成。
唯一性：UUID 是根据时间、节点和随机数等信息生成的，几乎可以保证全球唯一。

劣势：

存储空间：UUID 是128位的数字，相比其他方案占用更多的存储空间。
无序性：UUID 是随机生成的，没有顺序性，不适合作为数据库的主键。

// 使用UUID生成ID
public String generateId() {
    return UUID.randomUUID().toString().replace("-", "");
}

使用场景：需要全局唯一ID，不依赖于外部系统的系统，如分布式系统中的会话ID、文件ID等。

4. 常见问题

4.1 数据库自增ID用完了怎么办？

以MySQL为例，MySQL中的自增ID（也称为自动递增列或主键列）是一种用于生成唯一标识符的特殊列类型。根据其数据类型的不同，自增ID能够支持的最大值也不同。

以下是MySQL中常见的自增ID数据类型及其支持的最大值范围：

TINYINT：最大值为255。
SMALLINT：最大值为65535。
MEDIUMINT：最大值为16777215。
INT：最大值为4294967295。BIGINT
BIGINT：最大值为18446744073709551615。

下表列出了常见的整型数据类型（TINYINT、SMALLINT、MEDIUMINT、INT、BIGINT）及其能够支持的自增ID使用时间范围。

假设系统每秒生成一个自增ID

数据类型	最大值	使用时间范围
TINYINT	2^7 - 1 = 127	约为 3 年
SMALLINT	2^15 - 1 = 32767	约为 7 年
MEDIUMINT	2^23 - 1 = 8388607	约为 210 年
INT	2^31 - 1 = 2147483647	约为 68 年
BIGINT	2^63 - 1 = 9223372036854775807	约为 292471208677 年

所以如果有小伙伴们真的担心自增ID会用完，就可以数据类型设置大一点，一般INT足够用了。

4.2 分布式系统中生成的ID是否保证有序？

在分布式系统中生成的ID通常并不保证有序。这是因为分布式系统的特性决定了生成ID的方式可能是并行、分布式的，各个节点之间的生成过程可能是异步的，并且生成ID的速度也可能不同，因此无法保证生成的ID是严格有序的。

一些常见的分布式ID生成方案，例如雪花算法（Snowflake）、UUID（Universally Unique Identifier）等，虽然能够生成唯一的ID，但是并不保证ID的有序性。这些方案通常是根据一定的算法生成ID，其中包含了时间戳、节点标识、序列号等信息，但是并没有强制要求ID是有序的。

在一些特定的场景下，可能需要保证生成的ID是有序的，这时可以采取一些特殊的措施，例如：

使用有序的ID生成算法： 一些特殊的ID生成算法可以生成有序的ID，例如数据库的自增主键、Twitter 的 Snowflake 算法中的时间戳序列等。
中心化生成ID： 将ID的生成过程集中化到一个中心节点进行生成，通过中心节点的控制来保证生成的ID是有序的。
分布式锁： 在分布式环境下，可以使用分布式锁来控制ID的生成过程，确保生成的ID是有序的。

需要注意在分布式系统中，保证ID的有序性可能会引入额外的复杂性和性能开销，因此需要根据具体的业务需求和系统设计来权衡是否需要保证ID的有序性。

4.3 Snowflake是否受冬令时切换影响？

在 Snowflake 算法中，时间戳部分包含了一个毫秒级的时间戳和一个序列号。在生成 ID 的过程中，Snowflake 算法会使用当前时间减去一个固定的起始时间戳，然后将得到的时间差作为时间戳部分的值，同时保证序列号部分是递增的。

由于 Snowflake 算法使用的是机器本地的时间，如果发生了夏令时或冬令时的切换，机器本地的时间会相应地增加或减少一个小时，并不会对 Snowflake 算法生成的 ID 产生影响。Snowflake 算法会继续使用当前的机器本地时间来生成 ID，而不受夏令时或冬令时切换的影响。

4.4 如何避免单点故障对ID生成的影响？

避免单点故障对ID生成的影响可以采用以下几种策略：

使用分布式ID生成器： 使用分布式ID生成器可以避免单点故障。分布式ID生成器通常会将ID生成过程分散到多个节点上，并且这些节点之间是相互独立的，因此即使某个节点发生故障，其他节点仍然可以继续生成唯一的ID。
使用多副本机制： 在分布式系统中，可以通过复制机制来保证数据的可靠性和可用性。如果采用多副本机制存储ID生成器的状态信息，即使某个副本发生故障，其他副本仍然可以继续提供服务。
使用负载均衡： 在部署ID生成器时，可以使用负载均衡来均衡请求流量，将请求分发到多个节点上。这样即使某个节点发生故障，负载均衡器仍然可以将请求转发到其他可用节点上，避免单点故障对ID生成的影响。
使用高可用架构： 在设计ID生成器时，可以采用高可用架构，例如主备模式、集群模式等。通过部署多个节点，并且设置适当的故障切换策略，可以确保即使发生故障，系统仍然能够提供持续的服务。
定期备份和监控： 定期备份ID生成器的状态信息，并且设置监控系统来监控系统的运行状态。这样可以及时发现并解决潜在的单点故障问题，确保系统的可靠性和稳定性。

4.5 分布式ID如何进行容灾和恢复？

多副本存储： 将ID生成器的状态信息存储在多个副本中，确保即使某个副本发生故障，其他副本仍然可以提供服务。可以使用分布式存储系统或者数据库复制等技术来实现多副本存储。
故障切换： 当某个ID生成器节点发生故障时，需要及时进行故障切换，将请求流量转发到其他可用的节点上。可以使用负载均衡器或者集群管理系统等工具来实现故障切换。
数据备份和恢复： 定期备份ID生成器的状态信息，并且建立完备的数据恢复机制。当发生数据丢失或者损坏时，可以通过备份数据进行快速恢复。
监控和告警： 建立监控系统来监控ID生成器的运行状态，并且设置相应的告警机制。及时发现并解决潜在的问题确保系统的稳定运行。
灾难恢复计划： 制定灾难恢复计划，包括灾难发生时的应急响应流程、数据恢复策略、备份和恢复流程等。确保在发生灾难情况下能够迅速有效地进行系统恢复。
容灾测试： 定期进行容灾测试，验证容灾和恢复机制的有效性和可靠性。发现并解决潜在的问题，确保容灾和恢复机制的可靠性。

5. 结论

下表对比了雪花算法、数据自增ID和UUID这三种ID生成方式的特点：

特点	雪花算法	数据自增ID	UUID
算法原理	基于时间戳、节点ID和序列号的组合生成唯一ID	数据库自动递增生成唯一ID	基于随机数生成唯一ID
唯一性	高	高	非常高
有序性	有序	有序	无序
大小	64位	数据类型相关	128位
可读性	一定程度可读	不可读	不可读
性能	高	高	低
分布式支持	支持	需要额外措施	支持
唯一性生成方式	依赖节点ID、时间戳和序列号的组合	递增序列	随机数
应用场景	分布式系统、高并发场景	单节点、单表	唯一性要求高、可读性要求低的场景