雪花算法 Twitter snowflake

BogerPeng

已于 2023-10-01 14:29:35 修改

阅读量245

点赞数

文章标签： java

于 2022-04-17 22:57:28 首次发布

本文链接：https://blog.csdn.net/BogerPeng/article/details/124238665

版权

雪花算法

1. 什么是雪花算法

雪花算法是Twitter公司发明的一种算法，主要目的是解决在分布式环境下，ID怎样生成的问题。

注：本文内容是尚硅谷的雪花算法教程的笔记。

2. 特性

2.1 分布式ID生成规则硬性要求：

全局唯一：不能出现重复的ID号，既然是唯一标识，这是最基本的要求。
趋势递增：MySQL中InnoDB引擎使用的是聚集索引。多数RDBMS使用Btree的数据结构来存储索引数据，在主键的选择上尽量选择有序的主键保证写入性能。
单调递增：保证下一个ID号一定大于上一个。
信息安全：如果ID是连续的，恶意用户的扒取工作就非常容易做了，直接按照顺序下载指定URL即可。
		如果是订单号就更危险了，竞争对手可以知道我们一天的单量。
		所以在一些场景下，需要ID无规则不规则，让竞争对手不好猜。
含时间戳：这样能够在开发中快速了解这个分布式id的生成时间

2.2 分布式ID生成可用性要求：

    高可用：发布一个获取分布式ID的请求，服务器就要保证99.999%的情况下给创建一个全局唯一的分布式ID。
    低延迟：发布一个获取分布式ID的请求，要快，急速。高QPS：假如并发一口气10万个创建分布式ID请求同时杀过来，服务器要顶得住并且成功创建10万个分布式ID。

在这里插入图片描述

2.3 雪花算法优缺点

Twitter的分布式自增ID算法snowflake(雪花算法)优缺点：
优点：经测试snowflake每秒能生成26万个自增可排序的ID。snowflake生成的ID结果是一个64bit大小的整数，为一个Long型（转换成字符串后长度最多19）。分布式系统内不会产生ID碰撞（datacenter和workerId作区分）并且效率高。不依赖数据库等第三方系统，以服务的方式部署，稳定性更高，生成ID的性能也非常高，可以根据自身业务分配bit位，非常灵活。

经测试Snowflake每秒能生成26万个自增可排序的ID

1). Twitter 的 SnowFlake 能够按照时间有序生成
2). SnowFlake生成的ID结果是一个64bit大小的整数，为一个Long型(转换成字符串后长度最多19)
3). 分布式系统内不会产生ID碰撞(datacenter和workerId作区分) 并且效率高

分布式系统中，有一些需要时间全局唯一ID的场景，生成ID的基本要求：

1. 在分布式的环境下必须全局且唯一
2. 一般都需要单调递增，因为一般唯一ID都会存到数据库，而Innodb的特性就是将内容存储在主键索引上的叶子节点，而且是从左往右，递增的。
所以考虑到数据库性能, 一般生成的id也最好是单调递增。
为了防止ID冲突可以使用36位的UUID，但是UUID的缺点是它相对比较长，而且UUID一般是无序的
4. 可能还会需要无规则，因为如果使用了唯一ID作为订单号，为了不让别人直到一天的订单量是多少，就需要这个规则

2.4 雪花算法的几个核心组成部分

在这里插入图片描述
号段解析：
1bit

- 不用，因为二进制中最高位是符号位，1表示负数，0表示正数。
- 生成的id一般都是用整数，所以最高位固定为0

41bit-时间戳，用来记录时间戳，毫秒级

- 41位可以表示2^{41} - 1个数字
- 如果只用来表示正整数(计算机中正整数包含0），可以表示的数值范围是0至2^{41} - 1。
- 也就是说41为可以表示2^{41} - 1个毫秒的值，转化成单位年则是2^{41} - 1/(1000*60*60*24*265)=69.73年

10bit-工作机器id，用来记录工作机器id

- 可以部署在2^{10}-1=1024个节点，包括5为datacenterId和5位workerId
- 5位（bit）可以表示的最大正整数是2^{5}-1=31,即0到31这32个数字，来表示不同的datacenterId或workerId

12bit - 序列号，用来记录同毫秒内产生的不同id

- 12位（bit）可以表示的最大正整数是2^{12}-1=4095，即可以使用0 到 2094 这个4095个数字，
来表示同一机器同一时间戳（毫秒）内产生4095个ID序号

SnowFlake 可以保证：
所有生成的id按照时间趋势递增
整个分布式系统内不会产生重复id（因为有datacenterId和workerId来作区分）

3. SpringBoot 整合雪花算法–依赖hutool

Twitter SnowFlake GitHub位置：

    https://github.com/twitter-archive/snowflake

3.1 pom

使用hutool工具包

        <dependency>
            <groupId>cn.hutool</groupId>
            <artifactId>hutool-captcha</artifactId>
            <version>4.6.8</version>
        </dependency>

3.2 yaml

application:
  snowflake:
    workerId: 1  # 0 - 31
    datacenterId: 2  # 0 - 31
server:
  port: 8765

3.3 config 类

package com.pyh.snowflake.config;

import cn.hutool.core.lang.Snowflake;
import org.springframework.beans.factory.annotation.Value;
import org.springframework.context.annotation.Bean;
import org.springframework.context.annotation.Configuration;

@Configuration
public class SnowFlakeConfig {
    @Value("${application.snowflake.workerId}")
    private long workerId;

    @Value("${application.snowflake.datacenterId}")
    private long datacenterId;

    @Bean
    public Snowflake snowflake(){
        return new Snowflake(workerId,datacenterId);
    }
}

3.4 controller 类

package com.pyh.snowflake.controller;

import cn.hutool.core.lang.Snowflake;
import com.pyh.snowflake.service.SnowFlakeService;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.web.bind.annotation.GetMapping;
import org.springframework.web.bind.annotation.RestController;

import javax.annotation.Resource;
import java.time.LocalDateTime;
import java.util.*;
import java.util.concurrent.ExecutorService;
import java.util.concurrent.Executors;
import java.util.concurrent.Future;

@RestController
public class SnowFlakeController {
    @Resource
    SnowFlakeService snowFlakeService;

    @Autowired
    Snowflake snowflake;

    @GetMapping("/snowflake")
    public String getGeneratedId(){
        return snowFlakeService.getIDFromSnowFlake();
    }

    /**
     * 数据量大的时候，会产生重复的list
     * 这个不是很推荐，因为下面有更好的实现
     * @return
     */
    @GetMapping("/configSnowflake2")
    public Set getConfigSnowFlake2(){
        int count = 200000;

        System.out.println("getConfigSnowFlake2 开始生成id......");
        ExecutorService executor = Executors.newCachedThreadPool();

        Set list = Collections.synchronizedSet(new HashSet<>());
        System.out.println("getConfigSnowFlake2 开始时间" + LocalDateTime.now());
        for (int i =0 ; i<count; i++){
            executor.submit(() -> {
                list.add(Long.toString(snowflake.nextId()));
            });
        }
        System.out.println("getConfigSnowFlake2 结束时间" + LocalDateTime.now());
        System.out.println(list.size());
        return list;
    }

    /**
     * 能承受住很大的并发量， 两百万个完全不重复的id能够在2秒内生成
     getConfigSnowFlake1 开始生成id......
     getConfigSnowFlake1 开始时间2022-04-19T01:37:04.385
     getConfigSnowFlake1 结束时间2022-04-19T01:37:06.814
     生成id结束2000000
     * @return
     */
    @GetMapping("/configSnowflake")
    public Set getConfigSnowFlake(){
        int count = 200000;

        System.out.println("getConfigSnowFlake1 开始生成id......");
        ExecutorService executor = Executors.newCachedThreadPool();

        List countList = new ArrayList();
        //测试生成20w个id
        for (int i = 0; i < count; i++) {
            countList.add(i);
        }

        //使用set测试是否有重复，结果没有任何重复
        Set list = Collections.synchronizedSet(new HashSet<>());
        System.out.println("getConfigSnowFlake1 开始时间" + LocalDateTime.now());
        countList.parallelStream().forEach((i) -> {
            Future<String> futureTask = executor.submit(() -> {
                return Long.toString(snowflake.nextId());
            });
            String id = null;
            try {
                id = futureTask.get();
            } catch (Exception e2) {
                e2.printStackTrace();
            }
            list.add(id);
        });
//        executor.shutdown();  // no need to shutdown
        System.out.println("getConfigSnowFlake1 结束时间" + LocalDateTime.now());
        System.out.println("生成结束" + list.size());
        return list;
    }
}

3.5 优缺点

优点：

毫秒数在高位，自增序列在低位，整个ID都是趋势递增的。
不依赖数据库等第三方系统，以服务的方式部署，稳定性更高，生成ID的性能也是非常高的。
可以根据自身的业务特性分配bit位，非常灵活。

缺点：

依赖机器时钟，如果机器时钟回拨，会导致重复ID生成
在单机上是递增的，但是由于设计到分布式环境，每台机器上的时钟不可能完全同步，有时候会出现不是全局递增的情况
（此缺点可以认为无所谓，一般分布式ID只要求趋势递增，并不会严格要求递增，很大一部分的需求都只要求趋势递增）

4. SpringBoot 整合雪花算法–自定义

参考文章： https://cloud.tencent.com/developer/article/1634640
实现得很好，自己有空参考文章在本地实现，并在这里补上内容

5. 如果需要更大的id生成量

推荐：
百度开源的分布式唯一ID生成器UidGenerator
美团点评分布式ID生成系统–Leaf

BogerPeng

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
雪花算法 Twitter snowflake

twitter snowflake
复制链接

扫一扫