【深度学习】常见优化算法

最新推荐文章于 2024-03-10 17:42:50 发布

VIP文章 shenxiaolu1984

最新推荐文章于 2024-03-10 17:42:50 发布

阅读量1.3w

点赞数 2

分类专栏：机器学习算法文章标签：深度学习优化算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shenxiaolu1984/article/details/52511202

版权

本文介绍常见的一阶数值优化算法，这些方法在现代神经网络框架(tensorflow, caffe, torch)中已经是标准配置。

问题

设系统参数为 $\omega$ 。对于样本 $i$ ，其代价函数为 $Q_i(\omega)$ 。在n个样本组成的训练集上，其整体代价函数为：
$Q(\omega)=\sum_{i=1}^nQ_i(\omega)$

要求 $\omega$ 使得上式最小，由于没有闭式解，需要通过近似迭代逐步逼近。

基础一阶优化

GD

GD(Gradient Descent)以 $\eta$ 为学习率，在每次迭代中用一阶泰勒展开近似：
$\omega_{t+1}=\omega_t - \eta\nabla Q(\omega)$

将求和与梯度互换。GD方法的增量来源于对所有样本同时求梯度之和：
$\omega_{t+1}=\omega_t - \eta\sum_{i=1}^n\nabla Q_i(\omega)$

设 $\omega$ 的维度为D，代价函数 $Q$ 是个标量，减号后的梯度也是一个D维向量。

SGD

SGD(Stochastic Gradient Descent)在每次迭代中，顺次使用每个样本的梯度，更新参数：

for i=1 to n
$\omega_{t+1}=\omega_t - \eta \nabla Q_i(\omega)$

一种折衷的方法是，把m个样本组成一个mini-batch，使用mini-batch的总梯度更新参数：

for i=1 to n/m
$\omega_{t+1}=\omega_t - \eta \sum_{j=1}^m \nabla Q_{ij}(\omega)$

其中 $Q_{ij}(\omega)$ 为第i个minibatch中第j个样本的代价。

为书写简便，以下说明中不再出现样本序号i。 $\nabla Q(\omega)$ 可以指一个样本、一个mini-batch或者全部样本的梯度只和。

更快的一阶优化

这些方法都以GD为基础，但收敛速度更快，换句话说 $\epsilon_t$

最低0.47元/天解锁文章

关注

2
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
【深度学习】常见优化算法

本文介绍常见数值优化算法，其中的一阶方法在现代的神经网络框架(tensorflow, torch)中已经是标准配置，介绍较详细。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。