参数服务器：梯度下降法的应用

最新推荐文章于 2022-03-28 22:13:02 发布

rosefunR

最新推荐文章于 2022-03-28 22:13:02 发布

阅读量8.8k

点赞数 2

分类专栏：深度学习

本文为博主CSDN Rosefun96原创文章，转载请注明。

本文链接：https://blog.csdn.net/rosefun96/article/details/108420842

版权

深度学习专栏收录该内容

47 篇文章 9 订阅

订阅专栏

1. 参数服务器

在这里插入图片描述
参数服务器，parameter sever， ps，是一个编程框架，用于方便分布式并行程序的编写，其中重点在于对大规模参数的分布式存储和协同的支持。

出发点：
工业界需要训练大型的机器学习模型，一些广泛使用的特定的模型在规模上的两个特点：

参数很大，超过单个机器的容纳能力（比如大型Logistic Regression和神经网络）
训练数据巨大，需要分布式并行提速（大数据）

因此，参数服务器是为了解决参数量很大而产生的。

PS原理
在这里插入图片描述

Parameter Server的主要目的就是分布式并行进行梯度下降的计算完成参数的更新与最终收敛。需要注意的是，由于公式中正则化项的存在需要汇总所有模型参数才能够正确计算，因此较难进行模型参数的并行训练，因此Parameter Server采取了和Spark MLlib一样的数据并行训练产生局部梯度，再汇总梯度更新参数权重的并行化训练方案。

2. 分布式实现梯度下降法

在这里插入图片描述
目标是，分布式地存储参数 w 和使用梯度下降法来更新参数 w；
步骤：
（1）worker计算每一部分数据产生的损失，以及在参数上的梯度；
（2）server完成参数 w 的更新。

3. 其他

梯度下降法除了使用参数服务器来解决数据量大的问题外，还可以使用SGD。
在在线学习中，梯度下降的方法还有另外一种变形，也就是随机梯度下降（Stochastic Gradient Descent，SGD）[12]的方法。在普通梯度方法中，计算一次下降方向需要很大的计算量，而 SGD 的每一次迭代并不是精确地计算梯度，而是基于随机选取的一个样例来计算梯度。这是一个重要的简化，在实际大数据的情况下，这比普通的梯度法效果更好。从计算角度来看，SGD 并不容易并行实现，为了实现其并行计算，产生了一系列并行 SGD 算法和相应的机器学习框架，如 Parallelized SGD。

参考：

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

rosefunR 你的赞赏是我创作的动力！

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。