深度学习之梯度下降法

梯度下降

简而言之,对于深度学习的模型,比如普通的神经网络,我们有一个输入值 x x x,一个矩阵 W W W 和一个输出预测值 Y ^ = W ⋅ x \hat{Y}=W·x Y^=Wx, 但是往往除此之外还会有一个真实的 y y y 值。拿一种较为常见的损失函数公式举例:

C o s t = ( p r e d i c t e d − r e a l ) 2 = ( W ⋅ x − y ) 2 Cost=(predicted-real)^2=(W·x-y)^2 Cost=(predictedreal)2=(Wxy)2

梯度下降说白了是一种优化算法,其目的是为了不断将预测值和真实值之间的差(损失值)减小。其方式就是不停的找下降最快的“梯度”,然后按照这个梯度进行下降。

【梯度】
对于一个二维的坐标系来说, 梯度就是曲线中一点的斜率 。根据上面的描述, C o s t = ( W ⋅ x − y ) 2 Cost=(W·x-y)^2 Cost=(Wxy)2如果再进行简化一下: C o s t = ( W − 0 ) 2 Cost=(W-0)^2 Cost=(W0)2(虽然这种简化在数学上是不成立的,但这里只是为了看看效果)就会得到如下的图像:在这里插入图片描述
图中蓝点为初始点的位置,其斜率为此时的梯度,然后蓝点会朝着这个梯度的方向下降一点,然后在进行梯度的重新计算,得到下图:
在这里插入图片描述
然后再按照相同的方式直到到达梯度最小的点:
在这里插入图片描述
但是,再深度学习中的 W W W 不是如此简单的,一般会有很多个 W W W以矩阵的方式出现:
在这里插入图片描述所以很难可视化出来这一个具体的过程,而且在梯度下降的过程中有可能出现很多“局部最优点”限制梯度下降的效果:
在这里插入图片描述
图中黄点为全局最优解,蓝点都是局部最优解

虽然神经网络不能够保证找到的点是全局最优解,但是神经网络现在通过找局部最优解已经完全可以胜任普通的任务了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

暖仔会飞

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值