GBDT 梯度下降加深理解【笔记】

最新推荐文章于 2024-07-20 17:10:09 发布

Nuuuuuucl3air3

最新推荐文章于 2024-07-20 17:10:09 发布

阅读量63

点赞数

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41948494/article/details/126351004

版权

参考：B站：梗直哥讲AI

0 梯度下降

0.1 核心要素：

目的：找到误差最小的点。通过迭代找到目标函数的最小值，或者收敛到最小值。

0.2 步骤：

在这里插入图片描述

1 步骤·拆解：

1.1 定义·代价函数 cost function

1.1.1 推导

1.1.1.1 定义预测函数 – $y = w x$

（这里研究只用了一个 $w$ ，为了在二维平面上更直观观察图像）

1.1.1.2 误差公式 – MSE

在这里插入图片描述

![[Pasted image 20220815160400.png]]

☝ 其中， $x_i$ 、 $y_i$ 都是已知的，如下图，分别用 abc 表示：
![[Pasted image 20220815160746.png]]

1.1.2 代价函数（ cost function ）：

![[Pasted image 20220815161235.png]]

1.2 明确·搜素方向 —— 梯度计算

1.3 学习率

在这里插入图片描述

1.4 不达目的不罢休 —— 循环迭代

2 梯度下降·变体

在这里插入图片描述

2.1 BGD ( Batch Gradient Descent )

在这里插入图片描述

特点：

全部训练样本都参与了计算
梯度下降得非常平稳（走出了强迫症一般的漂亮曲线）
梯度下降最原始的形式
（慢 but 稳如老狗）

优点：保证算法精准度，找到全局最优点
缺点：训练的搜索过程很慢

2.2 SGD ( Stochastic Gradient Descent )

![[Pasted image 20220815163635.png]]

优点：提升了计算速度
缺点：牺牲了精准度。虽然大方向没错，但下降得非常不平稳

2.3 MBGD ( Mini - Batch Gradient Descent )

也叫 最速下降法
在这里插入图片描述

特点：

（相较于 BGD）没那么平稳，but 快得多
（相较于 SGD）没那么快，but 准确得多
简洁高效

3 梯度下降法·缺点

对学习率的设定，非常敏感
除了效率极低的 BGD 外， SGD 、MBGD 未必能找到全局最优，很有可能陷入局部最优。

4 更优的梯度下降算法

在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
GBDT 梯度下降加深理解【笔记】

GBDT 加深理解
复制链接

扫一扫

Nuuuuuucl3air3 CSDN认证博客专家 CSDN认证企业博客

码龄6年

3: 原创

164万+: 周排名

224万+: 总排名

518: 访问

: 等级

30: 积分

1: 粉丝

0: 获赞

2: 评论

0: 收藏

私信

关注

热门文章

最新评论

MySql 时间相关函数
CSDN-Ada助手: 推荐 MySQL入门技能树：https://edu.csdn.net/skill/mysql?utm_source=AI_act_mysql

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。