深度学习--梯度下降

1,在这里插入图片描述

基本形式如上图:上标表示第几次梯度下降,下标表示第几个参数
在这里插入图片描述

在这里插入图片描述
小心调整学习率
在这里插入图片描述

太大或太小的情况,在训练时,最好把loss与参数变化的图画出来.
在这里插入图片描述
自适应的学习率,学习率会越来越小.但是更好的是,不同的参数给不同的学习率.
在这里插入图片描述

其中α是基于过去该参数所有微分值算出的结果.
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
发现adagrad方法与普通的梯度下降算法,相冲突.因为adagrad方法中,g越大,步长不一定越大,因为
在这里插入图片描述
在这里插入图片描述
在多个参数中,找到最佳步长与一次微分与二次微分都有关系,所以不是一次微分越大,步长越大
在这里插入图片描述
在该方法中用一次微分平方和的平均代替二次微分.
在这里插入图片描述
在这里插入图片描述
每次只取一个样本,计算其损失函数与梯度.
普通的要对所有样本求和,而本方法不需要.
在这里插入图片描述
一般的梯度下降是看完20个样本后.将所有损失平方求和之后进行更新.而随机梯度下降已经更新了20次参数.
在这里插入图片描述
特征缩放
在这里插入图片描述
在这里插入图片描述
用过该方法后,梯度移动方向指向圆心,而不同椭圆形一样,指向需要调整.使得更新更有效率.
在这里插入图片描述
由此可见进行特征缩放的方法是进行标准化处理.
在这里插入图片描述
每一次的参数更新并不能保证损失函数一定减小,因为可能学习率不合适.
在这里插入图片描述
以下为数学原理,在上图可知,更新每一步参数都在一个范围内,找到参数在这个范围内的最小值,然后将参数更新到这次的最小值,无论是否为全局最小值.
在这里插入图片描述
用到泰勒展开式.
在这里插入图片描述
虽然只考虑常数和一次项并不能完整拟合出sinx函数,但是在x0附近是可以完全拟合的.上述是一个特征的情况.
在这里插入图片描述
以上为多个特征的情况.
在这里插入图片描述
所以在每一组参数中,损失函数可以简化.
在这里插入图片描述
由此将损失函数转化为常数与一次函数,而一次函数求最小值,就是微分的反方向移动,并且距离最远也就是在圆圈上.
其中参数使得距离在圆上.
在这里插入图片描述

而这个式子就是梯度下降的式子,并且成立条件是红色圈足够小,所以与之对应的学习率也不能太大.并且在理论上是无穷小.
如果在近似损失函数时,也用到二次式,那么学习率可以相对调大一点.因为结果更加精确.但是学习率太大会使得泰勒展开式不成立.这种方法会多出很多运算,所以一般还是用梯度下降.
在这里插入图片描述
梯度下降的另一个问题是,在代码中判断微分值小于一个设定的数,但是在不是极小值,也可能出现微分值很小的情况.如上图

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值