梯度下降总结(BGD ,SGD, MBGD)

最新推荐文章于 2019-11-25 21:11:09 发布

Zero黑羽枫

最新推荐文章于 2019-11-25 21:11:09 发布

阅读量527

点赞数

分类专栏：机器学习文章标签：机器学习梯度下降优化算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Zero_HeiYuFeng/article/details/87896128

版权

本文介绍了梯度下降法的三种形式：批梯度下降（BGD）、随机梯度下降（SGD）和小批量随机梯度下降（MBGD）。在机器学习中，梯度下降用于优化损失函数，寻找参数的最小值。BGD每次迭代遍历所有样本，计算量大；SGD每次仅用一个样本，计算快但可能陷入局部最优；MBGD则平衡了计算量和准确性。

摘要由CSDN通过智能技术生成

1. 从梯度下降开始

这两天学习了机器学习课程的第二课，课程内容是围绕梯度下降展开的，下面就我的学习内容做一个总结。

什么是梯度下降？

梯度下降 (Gradient Decent) 是优化算法的一种，其思想是让损失函数沿着梯度的方向下降，以最快的速度取到最小值。为啥是沿梯度的方向？因为梯度 (gradient) 就是函数变化最快的方向，贴一个梯度的定义: 梯度-维基百科，想深入了解的同学可以自取。

2. 批梯度下降 (Batch Gradient Decent)

批梯度下降是梯度下降最基本的形式，下面尝试在Linear Regression算法中使用批梯度下降来优化他的损失函数。

作为新手，在理解算法的时候，很多时候难住我们的不是逻辑，而是各种千奇百怪的符号，所以我先把公式中需要用到的符号列在这里，以消除符号的干扰。

符号解释:

$h (x)$ 学习算法的假设函数，本例中的学习算法是Linear Regression
$x_{i}$ 数据集的第 i 个特征
$\theta_{i}$ 假设函数对第 i 个特征的系数
$n$ 数据集的特征数
$m$ 数据集的样本数目
$x^{(i)},y^{(i)})$ 第 i 条训练样本

图片可能更加直观，请原谅我拙劣的画技，原始图片取自课程课件：
在这里插入图片描述

Linear Regression 的假设函数为:
$\sum_{i=0}^{n}{\theta_{i}x_{i}}$
其损失函数:
$J(\theta)=\frac{1}{2} \sum_{i=1}^{m}{(h_{\theta} (x^{(i)}) - y^{(i)}) ^ 2}$
在给定训练集的情况下， $(x, y)$ 均已知，损失函数只与 $\theta$ 有关，记为 $J(\theta)$ ，前面的系数 $\frac{1}{2}$

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
梯度下降总结(BGD ,SGD, MBGD)

1. 从梯度下降开始这两天学习了机器学习课程的第二课，课程内容是围绕梯度下降展开的，下面就我的学习内容做一个总结。什么是梯度下降？梯度下降 (Gradient Decent) 是优化算法的一种，其思想是让损失函数沿着梯度的方向下降，以最快的速度取到最小值。为啥是沿梯度的方向？因为梯度 (gradient) 就是函数变化最快的方向，贴一个梯度的定义: 梯度-维基百科，想深入了解的同学可以...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。