GBDT 梯度下降 加深理解【笔记】

参考:B站:梗直哥讲AI

0 梯度下降

0.1 核心要素:

  • 目的:找到误差最小的点。通过迭代找到目标函数的最小值,或者收敛到最小值。
    ![[Pasted image 20220815161931.png]]

0.2 步骤:

在这里插入图片描述

1 步骤·拆解:

1.1 定义·代价函数 cost function

1.1.1 推导

1.1.1.1 定义预测函数 – y = w x y = wx y=wx

(这里研究只用了一个 w w w,为了在二维平面上更直观观察图像)

1.1.1.2 误差公式 – MSE

在这里插入图片描述

![[Pasted image 20220815160400.png]]

☝ 其中, x i x_i xi y i y_i yi 都是已知的,如下图,分别用 abc 表示:
![[Pasted image 20220815160746.png]]

1.1.2 代价函数 ( cost function ):

![[Pasted image 20220815161235.png]]

1.2 明确·搜素方向 —— 梯度计算

1.3 学习率

在这里插入图片描述

1.4 不达目的不罢休 —— 循环迭代

2 梯度下降·变体

在这里插入图片描述

2.1 BGD ( Batch Gradient Descent )

在这里插入图片描述

  • 特点:
  1. 全部训练样本都参与了计算
  2. 梯度下降得非常平稳(走出了强迫症一般的漂亮曲线)
  3. 梯度下降最原始的形式
    ( 慢 but 稳如老狗 )
  • 优点:保证算法精准度,找到全局最优点
  • 缺点:训练的搜索过程很

2.2 SGD ( Stochastic Gradient Descent )

![[Pasted image 20220815163635.png]]

  • 优点:提升了计算速度
  • 缺点:牺牲了精准度。虽然大方向没错,但下降得非常不平稳

2.3 MBGD ( Mini - Batch Gradient Descent )

也叫 最速下降法
在这里插入图片描述

  • 特点:
  1. (相较于 BGD)没那么平稳,but 得多
  2. (相较于 SGD)没那么快,but 准确 得多
  3. 简洁高效

3 梯度下降法·缺点

  1. 对学习率的设定,非常敏感
    在这里插入图片描述

  2. 除了效率极低的 BGD 外, SGD 、MBGD 未必能找到全局最优,很有可能陷入局部最优
    在这里插入图片描述

4 更优的梯度下降算法

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值