一、Twitter的雪花算法—SnowFlake
1. SnowFlake算法背景
Twitter-Snowflake算法产生的背景相当简单,为了满足Twitter每秒上万条消息的请求,每条消息都必须分配一条唯一的id,这些id还需要一些大致的顺序(方便客户端排序),并且在分布式系统中不同机器产生的id必须不同。
2. Twitter Snowflake算法的应用
Twitter Snowflake算法是用来在分布式场景下生成唯一ID的。
举个栗子:我们有10台分布式MySql服务器,我们的系统每秒能生成10W条数据插入到这10台机器里,现在我们需要为每一条数据生成一个全局唯一的ID, 并且这些 ID 有大致的顺序。
3. ID结构
SnowFlake算法核心:把时间戳,工作机器id,序列号组合在一起。
SnowFlake算法生成id的结果是一个64bit大小的整数,它的结构如下图:
如图:最后生成的ID是一个long类型,long占64bit,符号位占1位,剩下63位,我们将这63位拆分成4段,就可以表示:某一毫秒内的某一集群内的某一机器的第几个ID。
可以分成5部分:1位+41位+10位+12位。
- 1位,未使用,固定为0。二进制中最高位为1表示负数,但是生成的id一般都使用正整数,所以这个最高位固定是0;正好作为64位id的最高位,为0,即long类型值为正数;
- 41位,用来记录时间戳(毫秒);41位表示的数字范围可以使用69年,也就是说41位可以表示毫秒值,转化成单位年则是69年;
- 10位,用来记录节点id;最多支持部署1024个节点,(节点一般是由5位数据中心编号datacenterId和5位机器编号workerId组成);
5位(bit)可以表示的最大正整数是31,即可以用0、1、2、3、....31这32个数字,来表示不同的datecenterId或workerId;
- 12位,序列号,用来记录同毫秒内产生的不同id,意味着每个节点每毫秒可以产生4096个ID序号。
12位(bit)可以表示的最大正整数是,即可以用0、1、2、3、....4095这4096个数字,来表示同一机器同一时间截(毫秒)内产生的4095个ID序号。
在上面的字符串中,第一位为未使用(实际上也可作为long