特点:一个通用的机器学习大型参数服务器,且通信数据压缩(一致性哈希以及各种特异性过滤)和容灾(向量钟)做的很好。但其实一般的机器学习主要的瓶颈在于计算量上,因此分布式服务器相对少见,而在如今大规模无监督文本数据训练的超大语言模型的环境下,参数服务器又有了发挥的舞台。
架构:
主要分为服务器端和用户端,通过一个资源管理器来协调两者之间的通信,其中服务器端、用户端也分别有自己的任务管理者,负责服务器的分配以及用户工作任务的分配。
容灾:采用向量钟将数据备份,具体做法是将服务器需要存储的数据看成一个环,然后用每一台机器划分环,注意每台机器不止维护自己所在区域的数据,还会备份自己后面两个区域的数据,这样容灾就可以做到环上连续的两台机器。
异步通信:可大幅降低等待时间,虽然会损失一些一致性,导致计算时间增加,但总时间减少明显。