七、各服务器角色介绍
1、Leader
处理事务请求,保证集群处理事务的顺序性;集群内部服务器的调度者;
2、Follower
处理客户端非事务请求,转发事务请求给Leader服务器;参与Leader选举;
3、Observer
与Follower的区别是不参与Leader选举。
八、数据与存储
数据存储分为两部分:内存数据存储、磁盘数据存储
1、内存数据
1)DataTree
ZooKeeper内存数据存储的核心,用于存储节点路径、数据内容等信息,底层的数据结构是ConcurrentHashMap,key是节点的路径,value是节点的数据内容DataNode。
2)DataNode
最小的数据存储单元。包含数据节点内容、ACL列表、节点状态、父节点的引用、子节点列表,还有一些对子节点操作增删改查的操作。
3)ZKDatabase
ZooKeeper的内存数据库,管理ZooKeeper的所有会话,DataTree存储和事务日志。定时向磁盘dump快照数据。
2、事务日志
1)日志写入
FileTxnLog负责事务日志的读取写入,将事务操作写入事务日志主要由append方法完成。
①确定是否有事务日志可写;
②确定事务日志是否需要扩容:磁盘与分配策略;
③事务序列化;
④生成checksum:保证数据准确性;
⑤写入事务日志文件流:将事务头、事务体和checksum值写入文件流,采用BufferedOutputStream。
⑥事务日志刷入磁盘;
下面附上源码:
public synchronized boolean append(TxnHeader hdr, Record txn)
throws IOException
{
if (hdr == null) {
return false;
}
if (hdr.getZxid() <= lastZxidSeen) {
LOG.warn("Current zxid " + hdr.getZxid()
+ " is <= " + lastZxidSeen + " for "
+ hdr.getType());
} else {
lastZxidSeen = hdr.getZxid();
}
if (logStream==null) {
if(LOG.isInfoEnabled()){
LOG.info("Creating new log file: " + Util.makeLogName(hdr.getZxid()));
}
logFileWrite = new File(logDir, Util.makeLogName(hdr.getZxid()));
fos = new FileOutputStream(logFileWrite);
logStream=new BufferedOutputStream(fos);
oa = BinaryOutputArchive.getArchive(logStream);
FileHeader fhdr = new FileHeader(TXNLOG_MAGIC,VERSION, dbId);
fhdr.serialize(oa, "fileheader");
// Make sure that the magic number is written before padding.
logStream.flush();
currentSize = fos.getChannel().position();
streamsToFlush.add(fos);
}
currentSize = padFile(fos.getChannel());
byte[] buf = Util.marshallTxnEntry(hdr, txn);
if (buf == null || buf.length == 0) {
throw new IOException("Faulty serialization for header " +
"and txn");
}
Checksum crc = makeChecksumAlgorithm();
crc.update(buf, 0, buf.length);
oa.writeLong(crc.getValue(), "txnEntryCRC");
Util.writeTxnBytes(oa, buf);
return true;
}
3)数据快照
记录ZooKeeper服务器某一时刻的全量数据内容,并将其写入到指定的磁盘文件中。将内存数据库写入快照数据文件是一个序列化过程。
①确定是否需要进行数据快照:采用过半随机策略;
②切换事务日志文件:重新创建一个新的事务日志文件;
③创建数据快照异步线程;
④获取全量数据和会话信息;
⑤生成快照数据文件名:根据最大的ZXID生成数据快照文件名;
⑥数据序列化:写入数据快照文件中。
public synchronized void serialize(DataTree dt, Map<Long, Integer> sessions, File snapShot)
throws IOException {
if (!close) {
OutputStream sessOS = new BufferedOutputStream(new FileOutputStream(snapShot));
CheckedOutputStream crcOut = new CheckedOutputStream(sessOS, new Adler32());
//CheckedOutputStream cout = new CheckedOutputStream()
OutputArchive oa = BinaryOutputArchive.getArchive(crcOut);
FileHeader header = new FileHeader(SNAP_MAGIC, VERSION, dbId);
serialize(dt,sessions,oa, header);
long val = crcOut.getChecksum().getValue();
oa.writeLong(val, "val");
oa.writeString("/", "path");
sessOS.flush();
crcOut.close();
sessOS.close();
}
}