什么是梯度下降

何为梯度下降?

小概念
模型:调整参数后的程序。
监督学习:输入的数据有标签。
非监督学习:输入的数据没有标签。
监督学习常见的就是回归、分类
回归:通过已有的数据来预测新的数据,输出一个数值。
分类:希望有一条线将数据分割成不同的类别。输出一个预测的类别。
无论是回归,还是分类,我们目的都是让搭建好的模型尽可能的模拟已有的数据。
机器学习任务:回归、分类、结构学习
决定模型能否模拟成功的关键有两点,分别是参数模型的结构。

模型中的参数成千上万,需要机器自己去寻找,这个寻找合适参数的过程就称为学习或者训练。

我们通常会使用一个工具来帮助调整模型参数,这个工具就是损失函数

  1. 那什么是损失函数?
    损失函数的定义:衡量模型模型预测的好坏。
    损失函数就是用来表现预测与实际数据的差距程度,即误差。

通常来讲,损失越大、模型效果越差,损失越小、模型效果越好

  1. 如何去让误差更小呢 ?
    真实的损失函数像是一个崎岖不平的山丘,找到最低点不容易,所以可以利用梯度,即梯度下降(一种优化算法–深度学习训练方法)

何为梯度下降?
梯度下降的定义:随机选择一个方向,然后每次迈步都选择最陡的方向,直到这个方向上能达到的最低点。

总结:梯度下降用来做什么?
在机器学习算法中,有时候需要对原始的模型构建损失函数,然后通过优化算法对损失函数进行优化,以便寻找到最优的参数,使得损失函数的值最小。而在求解机器学习参数的优化算法中,使用较多的就是基于梯度下降的优化算法。

梯度下降根据处理的训练数据不同,共有三种方式。
①批量梯度下降BGD
②小批量梯度下降MBGD
③随机梯度下降SGD

通俗易懂的解释一下这几个之间的区别!!!

梯度下降可以称之为---盲人下山法
①批量梯度下降BGD---拐杖周围挨着敲一圈,找个最陡的坡下山
②小批量梯度下降MBGD---拐杖周围随便敲几下,从里面找出最陡的坡下
③随机梯度下降SGD---朝着拐杖第一下随便敲的坡下山。

梯度算法的优缺点
优点:在梯度下降法的求解过程中,只需求解损失函数的一阶导数,计算的代价比较小,可以在很多大规模数据集上应用
缺点:求解的是局部最优值,即由于方向选择的问题,得到的结果不一定是全局最优。
步长选择方面,过小使得函数收敛速度慢,过大又容易找不到最优解。

那什么是步长?即所谓的学习率:控制模型的学习进度

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值