机器学习与深度学习系列连载: 第二部分 深度学习(二)梯度下降

梯度下降 Gradient Decent

我们回忆深度学习“三板斧”,

  1. 选择神经网络
  2. 定义神经网络的好坏
  3. 选择最好的参数集合

其中步骤三,如何选择神经网络的好坏呢?
在这里插入图片描述

梯度下降是目前,最有效的方法之一。

方法:我们举两个参数的例子 θ 1 \theta1 θ1, θ 2 \theta2 θ2, 损失函数是L。那么它的梯度是:
在这里插入图片描述

那我为了求得最小值,我们有:
在这里插入图片描述

参数不断被梯度乘以学习率η 迭代
在这里插入图片描述

那么上述公示公为什么是减号,不是加号呢?
我们定义 θ \theta θ改变的方向是movement的方向, 而gradient的方向是等高线的法线方向
在这里插入图片描述

基础的Gradient Decent已经介绍完了,接下来,我们一起探讨GD的使用技巧。

Learning rate学习率的设定

Learning Rate η 如果设定不好,Loss反而增大
在这里插入图片描述

自适应的学习率 adaptive learning rate

很多小伙伴在机器学习代码中,学习率一般都是设置为一个固定的数值(需要不断调参)。
根据学习经验,一般的我们有如下结论:

  1. 训练刚开始的时候,学习率较大,
  2. 经过几轮训练后,结果慢慢接近的时候,需要调小学习率
    在这里插入图片描述

Adagrad 的学习率是现有学习率 除以 导数的平方和的开根号

在这里插入图片描述

Stochastic Gradient Decent (SGD)

让训练更加快速

一般的GD方法是所有的训练数据后,进行一次参数更新
在这里插入图片描述

SGD是一个样本就可以更新参数,
在这里插入图片描述

GD和SGD的对比效果:
在这里插入图片描述

特征裁剪 Feature Scaling

让不同维度的数据,有相同的变化幅度
在这里插入图片描述

训练的时候,哪一个好train,一目了然
在这里插入图片描述

归一化方法:
在这里插入图片描述

总结: Gradient Decent 是机器学习、深度学习求解Optimal问题的“普世”方法,但是也会遇到很多问题,
例如local minima 和 saddle point 的问题。 我们以后会展开讨论。

在这里插入图片描述

本专栏图片、公式很多来自台湾大学李弘毅老师、斯坦福大学cs229,斯坦福大学cs231n 、斯坦福大学cs224n课程。在这里,感谢这些经典课程,向他们致敬!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值