梯度下降法的原理

本文揭示了负梯度法在优化损失函数中的核心原理,通过泰勒展开和向量内积解释了沿梯度负方向移动能最小化损失。关键在于找到最小夹角,即负梯度方向,结合学习率调整步长。
部署运行你感兴趣的模型镜像

之前一直就只知道朝着负梯度的方向走就能降Loss,却不知道是为什么,今天看了人工智能的课才明白了。

首先假设损失函数f(x)f(x)f(x),下一步xxx的移动方向与距离Δx\Delta{x}Δx,则有移动后的损失f(x+Δx)f(x+\Delta{x})f(x+Δx),我们来思考怎样能让损失降低,也就是使得f(x+Δx)<f(x)f(x+\Delta{x})<f(x)f(x+Δx)<f(x)

首先对f(x+Δx)f(x+\Delta{x})f(x+Δx)泰勒展开:
在这里插入图片描述
f(x)f(x)f(x)移到左边可得:
在这里插入图片描述
其中,∇f(x)\nabla{f(x)}f(x)f(x)f(x)f(x)的一阶导数
其中,左边也就是移动前后的损失差值

目标是使得差值为负,且尽可能小,也就是损失下降得越多越好
也即希望右边<0<0<0,且越小越好
我们看右边:
两个向量相乘=模相乘*cosθcos\thetacosθ
在这里插入图片描述
所以arg⁡min⁡Δxf(x+Δx)−f(x)=arg⁡min⁡Δx∥∇f(x)∥∥Δx∥cosθ\mathop{\arg\min}\limits_{\Delta{x}}f(x+\Delta{x})-f(x)=\mathop{\arg\min}\limits_{\Delta{x}}\left \| \nabla{f(x)} \right \|\left \| \Delta{x} \right \|cos\thetaΔxargminf(x+Δx)f(x)=Δxargminf(x)Δxcosθ
其中,模必>=0>=0>=0,因此,为了使其为负且最小化,cosθcos\thetacosθ负且最小,而cosθcos\thetacosθ就是参数变化的方向(Δx\Delta{x}Δx和梯度∇f(x)\nabla{f(x)}f(x)方向的夹角)。

要使得cosθcos\thetacosθ为负且最小,即当θ=π\theta=\piθ=π,取最小值cosπ=−1cos\pi=-1cosπ=1

Δx\Delta{x}Δx∇f(x)\nabla{f(x)}f(x)的夹角为π\piπ,即取负梯度方向时,右边能取到最小值。

最终,

∥Δx∥\left \| \Delta{x} \right \|Δx是一个标量,x移动的大小,我们可以看成学习率α\alphaα,最终,上式变为:
在这里插入图片描述
也就是说,取梯度的负方向,再根据学习率调整步长,就能降低损失

您可能感兴趣的与本文相关的镜像

GPT-oss:20b

GPT-oss:20b

图文对话
Gpt-oss

GPT OSS 是OpenAI 推出的重量级开放模型,面向强推理、智能体任务以及多样化开发场景

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值