watcher是客户端用来监听etcd服务端数据变化的功能模块,在客户端指定监听内容后,如果监听数据发生变化,则etcd服务器会通知相应的客户端。
watcher存在v2和v3两个版本。两版本watch机制的不同取决于存储机制的不同:
- v2:版本的存储是基于内存的存储,数据非实时写入磁盘,持久化时数据序列成JSON格式数据写入磁盘。同时内存中以树形结构存储。
- v3:依赖BoltDB,支持多版本事务,内存维护B树映射原始key值于BoltDB数据存储keyIndex关系。
v2和v3版本实际watcher模块的不同:
- v2:支持监听一个目录节点及其子节点;watch本质上建立http连接,每一个watch建立一个tcp套接字连接,当watch的客户端过多时,大大消耗服务器资源;v2为跟踪key变化,使用事件机制进行跟踪,维护键的状态,但有一个滑动窗口的大小限制,如果要获取1000个时间之前的键就获取不到了。
- v3:支持某固定key值及范围监听,支持任意历史版本记录;watch进行了连接复用,同时grpc proxy聚合key相同watch
一:总体框架
etcd服务端创建newWatchableStore开启group监听,调用mvcc中syncWatchers将所有未通知的事件通知给所有的监听者,对watcher通道阻塞时存入victim中数据,开启syncVictimsLoop;watchServer响应客户端请求,发起watchStream及watcher实例新建,并将其添加至unsynced或synced中。client端通过grpc proxy向watcherServer发送watcher请求。grpc proxy提供对同一个key的多次watch合并减少etcd server中重复watcher创建,以提高etcd server稳定性。
二:模块介绍
包括服务端newWatchableStore模块,mvcc watch模块及watchServer模块。
1、newWatchableStore
etcd/etcdmain/main.go
初始化watchableStore实例,watchableStore是mvcc模块对外提供watch功能的接口,负责注册、管理以及出发watcher功能
//etcd/mvcc/watchable_store.go#75-93
func newWatchableStore(lg *zap.Logger, b backend.Backend, le lease.Lessor, ig ConsistentIndexGetter) *watchableStore {
s := &watchableStore{
store: NewStore(lg, b, le, ig),
victimc: make(chan struct{
}, 1), //如果watcher实例关联的ch通道被阻塞了,则对应的watcherBatch实例会暂时记录到该字段中
unsynced: newWatcherGroup(), //用于存储未同步完成的实例
synced: newWatcherGroup(), //用于存储已经同步完成的实例
stopc: make(chan struct{
}),
}
s.store.ReadView = &readView{
s}//调用storage中全局view查询
/**************省略**************/
s.wg.Add(2)
go s.syncWatchersLoop() //同步watcherGroup
go s.syncVictimsLoop() //同步victimsGroup
return s
}
其中syncWatchersLoop方法,每隔100ms调用一次syncWatchers方法,将所有未通知的事件通知给所有的监听者。
etcd/mvcc/watchable_store.go#204-232
func (s *watchableStore) syncWatchersLoop() {
defer s.wg.Done()
for {
s.mu.RLock()
st := time.Now()
lastUnsyncedWatchers := s.unsynced.size() //获取当前的unsynced watcherGroup的大小
s.mu.RUnlock()
unsyncedWatchers := 0
if lastUnsyncedWatchers > 0 {
//存在需要进行同步的watcher实例,调用syncWatchers()方法对unsynced watcherGroup中的watcher进行批量同步
unsyncedWatchers = s.syncWatchers()
}
syncDuration := time.Since(st)
waitDuration := 100 * time.Millisecond //100ms循环一次
if unsyncedWatchers != 0 && lastUnsyncedWatchers > unsyncedWatchers {
waitDuration = syncDuration
}
/*******省略********/
}
syncVictimsLoop尝试将因通道阻塞的数据同步发送,如失败,可将watcher重新放入unsyncedGroup,其中syncVictimsLoop调用moveVictims的方法为处理victims的核心,其遍历victims字段中记录的watchBatch实例,并尝试将其中的event实例封装成watchResponse重新发送,如果发送依旧失败,则将其放回victims字段中保存,等待下一次重试;如果发送成功,则根据相应的watcher的同步情况,将watcher实例迁移到(un)synced watcherGroup中。
etcd/mvcc/watchable_store.go#262-317
// moveVictims tries to update watches with already pending event data
func (s *watchableStore) moveVictims() (moved int) {
s.mu.Lock()
victims := s.victims
var newVictim watcherBatch
for _, wb := range victims {
for w, eb := range wb {
rev := w.minRev - 1
if w.send(WatchResponse{
WatchID: w.id, Events: eb.evs, Revision: rev}) {
pendingEventsGauge.Add(float64(len(eb.evs)))
} else {
if newVictim == nil {
newVictim = make(watcherBatch)
}
newVictim[w] = eb
continue
}
moved++
}
// assign completed victim watchers to unsync/sync
s.mu.Lock()
s.store.revMu.RLock()
curRev := s.store.currentRev
fo