分布式存储中，生成全局唯一ID的几种方案

最新推荐文章于 2024-07-26 17:24:18 发布

Huangwenting1990

最新推荐文章于 2024-07-26 17:24:18 发布

阅读量2.4k

点赞数

本文链接：https://blog.csdn.net/Huangwenting1990/article/details/53112749

版权

本文探讨了分布式存储中生成全局唯一ID的几种方案，包括Twitter的Snowflake算法，Flickr的MySQL自增ID解决方案，UUID，基于Redis的分布式ID生成器，以及MongoDB的ObjectId。这些方案各有优缺点，如Snowflake算法高性能但需独立开发，Flickr方案高可靠但资源消耗大，UUID本地生成但可能导致索引效率低，Redis方案分布式但需要客户端处理，MongoDB ObjectId天然适合分布式环境。

摘要由CSDN通过智能技术生成

1.自定义生成规则
    eg:
      3位服务器编码+15位年月日时分秒毫秒+3位表编码+4位随机码  （这样就完全单机完成编码任务）---共25位
      3位服务器编码+15位年月日时分秒毫秒+3位表编码+4流水码  （这样流水码就需要结合数据库和缓存）---共25位
2.单独开一个数据库，获取全局唯一的自增序列或个表的MaxId
      eg:
        Flickr 方案  --- http://blog.csdn.net/taotao4/article/details/46520053
        replace into + 奇偶2个数据库主键生成服务器(防止单点故障)

数据在分片时，典型的是分库分表，就有一个全局ID生成的问题。
单纯的生成全局ID并不是什么难题，但是生成的ID通常要满足分片的一些要求：
1 不能有单点故障。
2 以时间为序，或者ID里包含时间。这样一是可以少一个索引，二是冷热数据容易分离。
3 可以控制ShardingId。比如某一个用户的文章要放在同一个分片内，这样查询效率高，修改也容易。
4 不要太长，最好64bit。使用long比较好操作，如果是96bit，那就要各种移位相当的不方便，还有可能有些组件不能支持这么大的ID。

一 twitter
twitter在把存储系统从MySQL迁移到Cassandra的过程中由于Cassandra没有顺序ID生成机制，于是自己开发了一套全局唯一ID生成服务：Snowflake。
1 41位的时间序列（精确到毫秒，41位的长度可以使用69年）
2 10位的机器标识（10位的长度最多支持部署1024个节点）
3 12位的计数顺序号（12位的计数顺序号支持每个节点每毫秒产生4096个ID序号）最高位是符号位，始终为0。
优点：高性能，低延迟；独立的应用；按时间有序。缺点：需要独立的开发和部署。

原理

时间戳

这里时间戳的细度是毫秒级，具体代码如下，建议使用64位Linux系统机器，因为有vdso，gettimeofday()在用户态就可以完成操作，减少了进入内核态的损耗。

<span style="font-size:18px;"><strong><code class="hljs cpp" style="display: block; padding: 0.5em; color: rgb(0, 0, 0); background: rgb(255, 255, 255);"><span class="hljs-keyword" style="color:#0088;">uint64_t</span> generateStamp()
{
    timeval tv;
    gettimeofday(&tv, <span class="hljs-number" style="color:#06666;">0</span>);
    <span class="hljs-keyword" style="color:#0088;">return</span> (<span class="hljs-keyword" style="color:#0088;">uint64_t</span>)tv.tv_sec * <span class="hljs-number" style="color:#06666;">1000</span> + (<span class="hljs-keyword" style="color:#0088;">uint64_t</span>)tv.tv_usec / <span class="hljs-number" style="color:#06666;">1000</span>;
}</code></strong></span>

默认情况下有41个bit可以供使用，那么一共有T（1llu << 41）毫秒供你使用分配，年份 = T / (3600 * 24 * 365 * 1000) = 69.7年。如果你只给时间戳分配39个bit使用，那么根据同样的算法最后年份 = 17.4年。

工作机器ID

严格意义上来说这个bit段的使用可以是进程级，机器级的话你可以使用MAC地址来唯一标示工作机器，工作进程级可以使用IP+Path来区分工作进程。如果工作机器比较少，可以使用配置文件来设置这个id是一个不错的选择，如果机器过多配置文件的维护是一个灾难性的事情。

这里的解决方案是需要一个工作id分配的进程，可以使用自己编写一个简单进程来记录分配id，或者利用Mysql auto_increment机制也可以达到效果。

工作进程与工作id分配器只是在工作进程启动的时候交互一次，然后工作进程可以自行将分配的id数据落文件，下一次启动直接读取文件里的id使用。

PS：这个工作机器id的bit段也可以进一步拆分，比如用前5个bit标记进程id，后5个bit标记线程id之类:D

序列号

序列号就是一系列的自增id（多线程建议使用atomic），为了处理在同一毫秒内需要给多条消息分配id，若同一毫秒把序列号用完了，则“等待至下一毫秒”。

<span style="font-size:18px;"><strong><code class="hljs nginx" style="display: block; padding: 0.5em; color: rgb(0, 0, 0); background: rgb(255, 255, 255);"><span class="hljs-attribute">uint64_t</span> waitNextMs(uint64_t <span class="hljs-literal" style="color:#06666;">last</span>Stamp)
{
    <span class="hljs-attribute">uint64_t</span> cur = <span class="hljs-number" style="color:#06666;">0</span>;
    <span class="hljs-section">do</span> {
        <span class="hljs-attribute">cur</span> = generateStamp();
    } <span class="hljs-attribute">while</span> (cur <= <span class="hljs-literal" style="color:#06666;">last</span>Stamp);
    <span class="hljs-attribute">return</span> cur;
}</code></strong></span>

总体来说，是一个很高效很方便的GUID产生算法，一个int64_t字段就可以胜任，不像现在主流128bit的GUID算法，即使无法保证严格的id序列性，但是对于特定的业务，比如用做游戏服务器端的GUID产生会很方便。另外，在多线程的环境下，序列号使用atomic可以在代码实现上有效减少锁的密度。

最高位是符号位，始终为0。

优点：高性能，低延迟；独立的应用；按时间有序。

缺点：需要独立的开发和部署。

java 实现代码