pytorch梯度下降函数_PyTorch(八)——梯度下降、优化器、偏差方差与正则化

本文介绍了梯度下降的概念及其在机器学习中的应用,包括批量梯度下降、随机梯度下降和小批量梯度下降。在PyTorch中,详细讲解了torch.optim库中的优化器,如SGD、RMSprop和Adam,并讨论了正则化中的L1和L2正则化在降低模型复杂度和防止过拟合中的作用。
摘要由CSDN通过智能技术生成

梯度

在微积分中,对多元函数的参数求偏导数,把求得的各个参数的偏导数以向量的形式表示出来,就是梯度。举个例子,对于函数f(x, y),我们分别对自变量x和y求偏导数为∂f/∂x和∂f/∂y,那么梯度向量就是(∂f/∂x, ∂f/∂y),简称grad f(x, y)或者▽f(x, y)。

从几何上讲,梯度其实就是函数变化增加最快的地方,沿着梯度向量的方向会更容易找到函数的最大值,沿着梯度向量的反方向会更容易找到函数的最小值。

因此,最小化损失函数就可以通过梯度下降法来进行不断迭代求解,最终得到最小化的损失函数和模型参数值。

梯度是微积分中的一个重要概念。在单变量函数中,梯度就是函数的微分,代表着函数在某个给定点的切线的斜率。

在多变量函数中,梯度是一个向量,向量有方向,梯度的方向或反方向就指明了函数在给定点的上升或下降最快的方向。

梯度下降法

梯度下降是迭代法的一种,可以用于求解最小二乘问题(线性与非线性均可),是一个使损失函数越来越小的优化算法。在无求解机器学习算法的模型参数问题(约束优化问题)中,梯度下降是最常用的方法之一(另一种常用方法是最小二乘法),梯度下降法可以通过一步步的迭代求解得到最小化的损失函数和模型参数值。在机器学习中,基于基本的梯度下降法主要有随机梯度下降法和批量梯度下降法。

我们可以将梯度下降法比作下山,但是我们并不知道下山的路,只能通过一步一步的试探来下山。假设下山过程无安全性问题,那么每走到一个位置的时候,我们就会求当前位置的梯度,并沿着梯度的负方向,也就是当前最陡峭的位置(这样走更接近山下)向下走一步。类似这种方法一步一步得走,直到

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值