机器学习总结(三)——梯度下降详解

梯度下降通俗解释

机器学习的问题中,线性回归问题是一个特殊的情况,线性回归可以直接求解,但是其他问题不行!在这里插入图片描述

举一个通俗的例子

在这里插入图片描述
针对我们的问题,我们想要找到loss最小值所对应的θ值。我们“下山”的路有很多条,哪一条下山最快呢?
那必定是对应点处的切线方向啊,也叫对应点的梯度反方向。
在这里插入图片描述
每下降一步(或者叫“下山”一步),对应的点都会改变,所以对应的梯度方向也会改变。
我们每次走一步,一步应该多大呢?
在这里插入图片描述
在这里插入图片描述

步长应该小一些!!!

参数更新方法

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

优化参数设置

在这里插入图片描述

批量梯度下降(GD)

在这里插入图片描述
批量梯度下降非常耗时!(因为要计算大量样本的梯度!!!!)
我们从样本中随机选取一个,算梯度下降不就可以节约很多时间!!!
这是个一个不错的idea,这个叫做随机梯度下降——SGD

随机梯度下降(SGD)

在这里插入图片描述
随机梯度下降虽然节约时间,但是结果并不好。结果不一定朝着收敛的方向。就像上图一样,结果是浮动的!!!

GD结果虽然好,但是太耗时!!!
SGD虽然节约时间,但是结果不理想!!!

那怎么办呀?

我们可以结合一下这两种方法!!!

小批量梯度下降,应运而生!!!

小批量梯度下降

在这里插入图片描述
在这里插入图片描述
batch设置的大的话,结果越精准,但是耗时大!
batch设置的小的话,计算速度快,但是结果不是很准确!
那我们如何权衡呢?
在咋们机器性能能接受的范围内,尽可能设置的大一些!!!

batch大的话,吃显存!!

学习率(步长)

在这里插入图片描述
LR一般自己设置为0.01或者0.001这些比较小的数值!!!
在这里插入图片描述

学习率设置的小,一次更新的小。学习率设置的大,一次更新的大。

附录

在机器学习中,基本不可能直接求解,而是通过优化求解的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值