参数服务器:梯度下降法的应用

1. 参数服务器

在这里插入图片描述
参数服务器,parameter sever, ps, 是一个编程框架,用于方便分布式并行程序的编写,其中重点在于对大规模参数的分布式存储和协同的支持。

出发点:
工业界需要训练大型的机器学习模型,一些广泛使用的特定的模型在规模上的两个特点:

  1. 参数很大,超过单个机器的容纳能力(比如大型Logistic Regression和神经网络)

  2. 训练数据巨大,需要分布式并行提速(大数据)

因此,参数服务器是为了解决参数量很大而产生的。

PS原理
在这里插入图片描述

Parameter Server的主要目的就是分布式并行进行梯度下降的计算完成参数的更新与最终收敛。需要注意的是,由于公式中正则化项的存在需要汇总所有模型参数才能够正确计算,因此较难进行模型参数的并行训练,因此Parameter Server采取了和Spark MLlib一样的数据并行训练产生局部梯度,再汇总梯度更新参数权重的并行化训练方案。

2. 分布式实现梯度下降法

在这里插入图片描述
目标是,分布式地存储参数 w 和使用梯度下降法来更新参数 w;
步骤:
(1)worker计算每一部分数据产生的损失,以及在参数上的梯度;
(2)server完成参数 w 的更新。

3. 其他

梯度下降法除了使用参数服务器来解决数据量大的问题外,还可以使用SGD。
在在线学习中,梯度下降的方法还有另外一种变形,也就是随机梯度下降(Stochastic Gradient Descent,SGD)[12]的方法。在普通梯度方法中,计算一次下降方向需要很大的计算量,而 SGD 的每一次迭代并不是精确地计算梯度,而是基于随机选取的一个样例来计算梯度。这是一个重要的简化,在实际大数据的情况下,这比普通的梯度法效果更好。从计算角度来看,SGD 并不容易并行实现,为了实现其并行计算,产生了一系列并行 SGD 算法和相应的机器学习框架,如 Parallelized SGD。


参考:

  1. 一文读懂「Parameter Server」的分布式机器学习训练原理;
  2. ParameterServer入门和理解;
  3. 最近比较火的parameter server是什么?;
  4. 论文Parameter Server for Distributed Machine Learning
  5. 计算广告 刘鹏
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

rosefunR

你的赞赏是我创作的动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值