1. 参数服务器
参数服务器,parameter sever, ps, 是一个编程框架,用于方便分布式并行程序的编写,其中重点在于对大规模参数的分布式存储和协同的支持。
出发点:
工业界需要训练大型的机器学习模型,一些广泛使用的特定的模型在规模上的两个特点:
-
参数很大,超过单个机器的容纳能力(比如大型Logistic Regression和神经网络)
-
训练数据巨大,需要分布式并行提速(大数据)
因此,参数服务器是为了解决参数量很大而产生的。
PS原理
Parameter Server的主要目的就是分布式并行进行梯度下降的计算完成参数的更新与最终收敛。需要注意的是,由于公式中正则化项的存在需要汇总所有模型参数才能够正确计算,因此较难进行模型参数的并行训练,因此Parameter Server采取了和Spark MLlib一样的数据并行训练产生局部梯度,再汇总梯度更新参数权重的并行化训练方案。
2. 分布式实现梯度下降法
目标是,分布式地存储参数 w 和使用梯度下降法来更新参数 w;
步骤:
(1)worker计算每一部分数据产生的损失,以及在参数上的梯度;
(2)server完成参数 w 的更新。
3. 其他
梯度下降法除了使用参数服务器来解决数据量大的问题外,还可以使用SGD。
在在线学习中,梯度下降的方法还有另外一种变形,也就是随机梯度下降(Stochastic Gradient Descent,SGD)[12]的方法。在普通梯度方法中,计算一次下降方向需要很大的计算量,而 SGD 的每一次迭代并不是精确地计算梯度,而是基于随机选取的一个样例来计算梯度。这是一个重要的简化,在实际大数据的情况下,这比普通的梯度法效果更好。从计算角度来看,SGD 并不容易并行实现,为了实现其并行计算,产生了一系列并行 SGD 算法和相应的机器学习框架,如 Parallelized SGD。
参考: