雪花算法 Twitter snowflake

1. 什么是雪花算法

雪花算法是Twitter公司发明的一种算法,主要目的是解决在分布式环境下,ID怎样生成的问题。

注:本文内容是尚硅谷的雪花算法教程的笔记。

2. 特性

2.1 分布式ID生成规则硬性要求:

全局唯一:不能出现重复的ID号,既然是唯一标识,这是最基本的要求。
趋势递增:MySQL中InnoDB引擎使用的是聚集索引。多数RDBMS使用Btree的数据结构来存储索引数据,在主键的选择上尽量选择有序的主键保证写入性能。
单调递增:保证下一个ID号一定大于上一个。
信息安全:如果ID是连续的,恶意用户的扒取工作就非常容易做了,直接按照顺序下载指定URL即可。
		如果是订单号就更危险了,竞争对手可以知道我们一天的单量。
		所以在一些场景下,需要ID无规则不规则,让竞争对手不好猜。
含时间戳:这样能够在开发中快速了解这个分布式id的生成时间

2.2 分布式ID生成可用性要求:

    高可用:发布一个获取分布式ID的请求,服务器就要保证99.999%的情况下给创建一个全局唯一的分布式ID。
    低延迟:发布一个获取分布式ID的请求,要快,急速。高QPS:假如并发一口气10万个创建分布式ID请求同时杀过来,服务器要顶得住并且成功创建10万个分布式ID。

在这里插入图片描述

2.3 雪花算法优缺点

Twitter的分布式自增ID算法snowflake(雪花算法)优缺点:
优点:经测试snowflake每秒能生成26万个自增可排序的ID。snowflake生成的ID结果是一个64bit大小的整数,为一个Long型 (转换成字符串后长度最多19)。分布式系统内不会产生ID碰撞(datacenter和workerId作区分)并且效率高。不依赖数据库等第三方系统,以服务的方式部署,稳定性更高,生成ID的性能也非常高,可以根据自身业务分配bit位,非常灵活。

经测试Snowflake每秒能生成26万个自增可排序的ID

1). Twitter 的 SnowFlake 能够按照时间有序生成
2). SnowFlake生成的ID结果是一个64bit大小的整数,为一个Long型(转换成字符串后长度最多19)
3). 分布式系统内不会产生ID碰撞(datacenter和workerId作区分) 并且效率高

分布式系统中,有一些需要时间全局唯一ID的场景,生成ID的基本要求:

1. 在分布式的环境下必须全局且唯一
2. 一般都需要单调递增,因为一般唯一ID都会存到数据库,而Innodb的特性就是将内容存储在主键索引上的叶子节点,而且是从左往右,递增的。
所以考虑到数据库性能, 一般生成的id也最好是单调递增。
为了防止ID冲突可以使用36位的UUID,但是UUID的缺点是它相对比较长,而且UUID一般是无序的
4. 可能还会需要无规则,因为如果使用了唯一ID作为订单号,为了不让别人直到一天的订单量是多少,就需要这个规则

2.4 雪花算法的几个核心组成部分

在这里插入图片描述
号段解析:
1bit

- 不用,因为二进制中最高位是符号位,1表示负数,0表示正数。
- 生成的id一般都是用整数,所以最高位固定为0

41bit-时间戳,用来记录时间戳,毫秒级

- 41位可以表示2^{41} - 1个数字
- 如果只用来表示正整数(计算机中正整数包含0),可以表示的数值范围是0至2^{41} - 1。
- 也就是说41为可以表示2^{41} - 1个毫秒的值,转化成单位年则是2^{41} - 1/(1000*60*60*24*265)=69.73年

10bit-工作机器id,用来记录工作机器id

- 可以部署在2^{10}-1=1024个节点,包括5为datacenterId和5位workerId
- 5位(bit)可以表示的最大正整数是2^{5}-1=31,即0到31这32个数字,来表示不同的datacenterId或workerId

12bit - 序列号,用来记录同毫秒内产生的不同id

- 12位(bit)可以表示的最大正整数是2^{12}-1=4095,即可以使用0 到 2094 这个4095个数字,
来表示同一机器同一时间戳(毫秒)内产生4095个ID序号

SnowFlake 可以保证:
所有生成的id按照时间趋势递增
整个分布式系统内不会产生重复id(因为有datacenterId和workerId来作区分)

3. SpringBoot 整合雪花算法–依赖hutool

Twitter SnowFlake GitHub位置:

    https://github.com/twitter-archive/snowflake

3.1 pom

使用hutool工具包

        <dependency>
            <groupId>cn.hutool</groupId>
            <artifactId>hutool-captcha</artifactId>
            <version>4.6.8</version>
        </dependency>

3.2 yaml

application:
  snowflake:
    workerId: 1  # 0 - 31
    datacenterId: 2  # 0 - 31
server:
  port: 8765

3.3 config 类

package com.pyh.snowflake.config;

import cn.hutool.core.lang.Snowflake;
import org.springframework.beans.factory.annotation.Value;
import org.springframework.context.annotation.Bean;
import org.springframework.context.annotation.Configuration;

@Configuration
public class SnowFlakeConfig {
    @Value("${application.snowflake.workerId}")
    private long workerId;

    @Value("${application.snowflake.datacenterId}")
    private long datacenterId;

    @Bean
    public Snowflake snowflake(){
        return new Snowflake(workerId,datacenterId);
    }
}

3.4 controller 类

package com.pyh.snowflake.controller;

import cn.hutool.core.lang.Snowflake;
import com.pyh.snowflake.service.SnowFlakeService;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.web.bind.annotation.GetMapping;
import org.springframework.web.bind.annotation.RestController;

import javax.annotation.Resource;
import java.time.LocalDateTime;
import java.util.*;
import java.util.concurrent.ExecutorService;
import java.util.concurrent.Executors;
import java.util.concurrent.Future;

@RestController
public class SnowFlakeController {
    @Resource
    SnowFlakeService snowFlakeService;

    @Autowired
    Snowflake snowflake;

    @GetMapping("/snowflake")
    public String getGeneratedId(){
        return snowFlakeService.getIDFromSnowFlake();
    }

    /**
     * 数据量大的时候,会产生重复的list
     * 这个不是很推荐,因为下面有更好的实现
     * @return
     */
    @GetMapping("/configSnowflake2")
    public Set getConfigSnowFlake2(){
        int count = 200000;

        System.out.println("getConfigSnowFlake2 开始生成id......");
        ExecutorService executor = Executors.newCachedThreadPool();

        Set list = Collections.synchronizedSet(new HashSet<>());
        System.out.println("getConfigSnowFlake2 开始时间" + LocalDateTime.now());
        for (int i =0 ; i<count; i++){
            executor.submit(() -> {
                list.add(Long.toString(snowflake.nextId()));
            });
        }
        System.out.println("getConfigSnowFlake2 结束时间" + LocalDateTime.now());
        System.out.println(list.size());
        return list;
    }

    /**
     * 能承受住很大的并发量, 两百万个完全不重复的id能够在2秒内生成
     getConfigSnowFlake1 开始生成id......
     getConfigSnowFlake1 开始时间2022-04-19T01:37:04.385
     getConfigSnowFlake1 结束时间2022-04-19T01:37:06.814
     生成id结束2000000
     * @return
     */
    @GetMapping("/configSnowflake")
    public Set getConfigSnowFlake(){
        int count = 200000;

        System.out.println("getConfigSnowFlake1 开始生成id......");
        ExecutorService executor = Executors.newCachedThreadPool();

        List countList = new ArrayList();
        //测试生成20w个id
        for (int i = 0; i < count; i++) {
            countList.add(i);
        }

        //使用set测试是否有重复,结果没有任何重复
        Set list = Collections.synchronizedSet(new HashSet<>());
        System.out.println("getConfigSnowFlake1 开始时间" + LocalDateTime.now());
        countList.parallelStream().forEach((i) -> {
            Future<String> futureTask = executor.submit(() -> {
                return Long.toString(snowflake.nextId());
            });
            String id = null;
            try {
                id = futureTask.get();
            } catch (Exception e2) {
                e2.printStackTrace();
            }
            list.add(id);
        });
//        executor.shutdown();  // no need to shutdown
        System.out.println("getConfigSnowFlake1 结束时间" + LocalDateTime.now());
        System.out.println("生成结束" + list.size());
        return list;
    }
}

3.5 优缺点

优点:

毫秒数在高位,自增序列在低位,整个ID都是趋势递增的。
不依赖数据库等第三方系统,以服务的方式部署,稳定性更高,生成ID的性能也是非常高的。
可以根据自身的业务特性分配bit位,非常灵活。

缺点:

依赖机器时钟,如果机器时钟回拨,会导致重复ID生成
在单机上是递增的,但是由于设计到分布式环境,每台机器上的时钟不可能完全同步,有时候会出现不是全局递增的情况
(此缺点可以认为无所谓,一般分布式ID只要求趋势递增,并不会严格要求递增,很大一部分的需求都只要求趋势递增)

4. SpringBoot 整合雪花算法–自定义

参考文章: https://cloud.tencent.com/developer/article/1634640
实现得很好,自己有空参考文章在本地实现,并在这里补上内容

5. 如果需要更大的id生成量

推荐:
百度开源的分布式唯一ID生成器UidGenerator
美团点评分布式ID生成系统–Leaf

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值