pytorch学习笔记(各种优化算法的变式)

本文介绍了PyTorch中几种常见的优化算法,包括梯度下降法、SGD、Momentum、Adagrad、RMSprop和Adam。SGD在大数据集上使用,Momentum利用动量帮助越过局部最小值,Adagrad和RMSprop通过自适应学习率改进,而Adam结合了RMSprop和Momentum的优点,通常作为默认优化器。
摘要由CSDN通过智能技术生成

梯度下降法

         梯度下降法的更新公式:

\Theta ^{i}=\Theta ^{i-1}-\eta \bigtriangledown L(\Theta ^{i-1})

梯度下降法的变式

1.SGD

        随机梯度下降法是梯度下降法的一个小变形,就是每次使用一批(batch)数据进行梯度的计算,而不是计算全部的数据的梯度,因为现在深度学习使用的数据量都特别的大,所以每次计算所有的梯度都是不现实的,这样会导致运算时间过长,同时每次都计算全部的梯度还失去了一些随机性,容易引入一些局部误差,所以使用随机梯度下降法可能每次都不是朝着真正的最小的方向,但是这样反而容易跳出局部极小点。

2.Momentum

       第二种优化方法就是在随机梯度下降的同事,增加动量(Momentum)。这来自于物理中的概念,可以想象 损失函数是一个山谷,一个球从山谷滑下来,在一个平坦的地势,球的滑动速度就会慢下来,可能会陷入一些鞍点或者局部极小值点,如下图所示。

         这时候给它增加动量就可以让它从高处滑落的势能转换为平地的动能,相当于

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值