前段时间搞爬虫,经常遭遇入口机器出现问题导致系统无法提供服务的情况,很是郁闷。
虽然agent已经有了alert系统来保证下面的agent即使出现问题系统也会迅速做出反应,但是server一旦挂掉却束手无策。
郁闷了一段时间后,一次偶然的机会看到了RSL这个设计,觉得很好,所以在这里介绍一下,供大家参考。
RSL, replicate state library, 是一组method和library的集合,用来组成一个集群,从而实现failover的功能。
它的主要设计思路是在这个集群中,所有机器(或者运行单元)都拥有完全相同的状态 ,所有来自client的请求,都按照一致的顺序来执行,其中的一个primary与client进行通信,接受请求并作出处理,当这个primary出现问题不能工作后,将会在余下的机器中选出一个来继续充当primary,从而使server不间断的接受client请求。
这样的server被称为RSL based server。它不需要在server端多做什么东西,它需要在client端多实现一个RSL-based client来与server 通信。这个RSL-client 需要在server不可见时,主动发出请求去寻找可替代的primary,从而实现不间断服务。
RSL server 最麻烦的地方是一致性算法,它需要所有的机群机器都拥有完全一致的状态,所有来自client的请求都按照一致的顺序被执行,并且有一定的策略,当集群中机器>50% 或者其他比例时server可见。
有关一致性算法,请参考 Paxos algorithm。