tokyo tyrant源码分析-主从复制实现

最新推荐文章于 2024-10-02 23:40:03 发布

pingnning

最新推荐文章于 2024-10-02 23:40:03 发布

阅读量2.2k

点赞数

分类专栏： tokyo tyrant源码分析文章标签： socket cmd server 算法 tcp file

本文链接：https://blog.csdn.net/pingnning/article/details/4724377

版权

tokyo tyrant源码分析专栏收录该内容

5 篇文章 0 订阅

订阅专栏

"tyrant分析-总体设计"中已经提到，slave起一个线程(do_slave)做主从复制，它和master建立tcp连接，发送请求命令和起始时间rts +1(上次的更新时间加1秒)给master，然后循环的从master那里接收一条条的记录，更新自己db、ulog和rts file。do_slave是以1秒为频率执行的。(实际是等待一次do_slave执行完毕后，再等待1秒，然后进入下一次的do_slave，依次循环。所以"以1秒为频率执行"的表达似乎并不准确。从下面可以看到一次do_slave有可能执行较长时间)

主从复制是一个主、从交互的过程。本节依次描述协议细节、slave细节、master细节。

------------

协议细节：

do_slave(slave) do_repl(master)

-------------------

| TTMAGICNUM|

| TTCMDREPL |

| ts （+1) |

| sid | send and recv (with timeout)

------------------- ------------------------>

-----------------

send and cnd wait | NOP |

<--------------------- -----------------

-----------------------

| TCULMAGICNUM |

| rts |

| rsid |

| rsiz |

content send | rsiz-content |

<--------------------- ------------------------

next content send

<---------------------

......

rsiz-content格式：

MAGIC + cmd + ksize + vsize + key + value

其中:

cmd: TTCMDPUT | TTCMDOUT | ...

ksize，vsize分别是本条记录的key,value的长度；

slave就根据cmd和key-value对对db进行相应操作。

master的ulog由一条条独立记录组成，每条记录有相同格式：

MAGIC + ts + sid + size + content

其中：

ts : 本条记录对应的时间戳。slave请求时会带上上次更新时间戳，master根据它们来判断需要传送哪些记录给slave;

sid : server id. 唯一标识server。

size : 后面"content"长度

content格式即上面"rsiz-content"的格式，描述了一条key-value对以及对它做的操作命令。

--------------

do_slave流程：

打开rts文件(默认为ttserver.rts),读取上次的rts(replication timestamp);

和master建立socket连接(参数:-mhost,-mport)，并设置socket选项：

SO_RCVTIMEO、SO_SNDTIMEO - 发送、接收超时设置为0.25秒

TCP_NODELAY - 禁止nagle算法

发送REPL请求(详见协议细节);

循环：

用recv接收数据；

解析接收数据，根据数据中指定的命令(TTCMDPUT、TTCMDOUT等)更新db和slave自己的ulog；

用接收数据里的最新rts更新slave的rts文件；

最后关闭连接

解释：

1、slave不能因偶然的网络故障之类永远阻塞在send或recv中，这样的话更新就会永远停滞了。所以它要设置发送和接收的超时。如果超时，则这次do_slave失败，等待1秒后进行下一次。send | recv失败时，它并不会用新的rts(可能压根就没请求到它)去更新自己的rts文件，所以下次还是会用旧的rts去请求，所以不会因do_slave失败而导致slave数据不全。

2、禁止nagle算法是因为有小数据的命令包的交互，不能拖延。

3、请求只发送一次，但数据是一直循环接收的。循环失败的条件是：recv失败(或超时)，收到SIGINT或SIGTERM，或是更新库失败或写文件失败等；

---------------

do_repl流程：

根据slave的请求ts找到合适的ulog文件(文件名使用数字编号，依次递增)，逻辑是：

从编号最大的文件依次往编号小的文件：(编号越大，ulog内容越新，ts越大)

打开文件查看它的第一条记录的ts，如果请求ts大于它，则该文件即为要找的ulog文件。

循环。当对端连接未关闭且没收到SIGINT、SIGTERM信号时：

发送NOP(测试对端连接是否关闭)；

pthread_cond_timedwait等待ulog更新信号，超时值为1秒；

循环：

一次读取一条日志记录；