如果我们要写一个ZooKeeper的client程序,那么有一个相关的配置:connect string,它通常以用逗号分隔的host:port对来表示。host可以用一个IP地址或hostname来表示。使用一个hostname提供了一个中间层将服务器标识与实际的IP隔离开来,这样即使管理员变动了ZooKeeper某个server的部署,client端也不会改动。
然而,这种灵活性是有限制的。管理员可以更改集群中的某台机器,但不能是client正在连接的那台。例如,如下图,集群本来有3台机器,后来扩展到了5台,但是client仍然在使用原来那3台机器,而不是所有的机器。
还有另一种方法能让ZooKeeper更灵活的应对机器数量改变的问题,而不需要改变client的配置。一个hostname解析成一个IP,这是很常见的,但实际上一个hostname可以解析成多个IP。如果一个hostname解析成多个IP,那么client可以连接这些IP中的任意一个。在上图,假设有3个独立的IP,zk-a,zk-b,zk-c,分别解析成10.0.0.1,10.0.0.2和10.0.0.3。现在用DNS来配置一个hostname,zk解析成所有的3个IP,然后可以修改解析成5个IP,之后启动的client能够连接到所有5个IP,如下图:
使用这种方法有一些地方需要注意。首先,所有的zk server必须使用相同的端口。第二,只能对修改hostname后新启动的client有效,在之前已经启动的client是不能重新解析的。client connect string也可以包含一个path部分,它代表使用的根目录,跟Unix的chroot命令的行为类似。例如,如果一个client的connect string为:zk:2222/app/superApp,当发出getData("/a.dat", ...)命令时,client会收到/app/superApp/a.dat的znode的数据,前提是那个路径必须存在,connect string不会为你创建。
在connect string中使用path部分的动机是允许一个ZooKeeper ensemble为多个应用程序服务,而不要求应用程序自己在路径中加上用来区分的前缀,这样可以每一个应用程序感觉不到是跟别的应用程序共用同一套ZooKeeper,相当于程序中的命名空间的概念。下图展示了这种模式下data tree的使用情况。