对机器学习中的优化算法的整理

最新推荐文章于 2022-04-06 21:14:44 发布

是大侠诶

最新推荐文章于 2022-04-06 21:14:44 发布

阅读量103

点赞数

分类专栏：机器学习文章标签：算法机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41563601/article/details/108822153

版权

机器学习专栏收录该内容

18 篇文章 3 订阅

订阅专栏

梯度下降法

梯度下降法是一种寻找目标函数最小化的方法。从梯度方向，是数值下降最快的方向，在机器学习中，根据数据集使用方式不同分为batch，stochastic和mini-batch 三种。

1.Batch Gradient Descent（BGD）

批量梯度下降法，是梯度下降法最常用的形式，具体做法也就是在更新参数时使用所有的样本来进行更新。也就是说：
步骤一：所有的样本跑一遍，记录下w和b的值
步骤二：更新真正的 w和b
重复步骤一直到 w和b收敛或者准确度收敛

2.Stochastic Gradient Descent（SGD）

随机梯度下降法与batch背道而驰，它对于每个样本都进行更新，也就是说每次都更新真正的w和b ，也就是说：
步骤一：读取一个样本
步骤二：更新真正的w和b
重复步骤一直到 w和b收敛或者准确度收敛

3.Mini-batch Gradient Descent（MBGD）

顾名思义，小批量梯度下降法就是对于 M 个样本，我们采用X个样本来迭代， $1 < X < M$ 。一般可以取 8,16,32,64 ，当然根据样本的数据，可以调整这个x的值。也就是说：
步骤一：将X个样本跑一遍，记录下w和b的值
步骤二：更新真正的 w和b
步骤三：更新X到一个分区如[0,16],[17-32],[33,48]…[M-16,M] 这种。
重复步骤一直到 w和b收敛或者准确度收敛

核心的操作步骤

选择一个目标函数f(x)
做优化函数 $g=\sum_{i=1}^{m}(f(x_i)-y_i)^2$
求使得g最小的f() ,也就是我们权值矩阵w。直接进行一次导数，然后使用梯度下降法进行最优化的迭代
【题外话】写道这里，我突然有种感觉最小二乘法是构造目标函数用的，而梯度下降法是求解最小值的，或者他们就不用放在一起讨论，也许最小二乘法应该是和最大似然函数法和贝叶斯那些在一起讨论的，嘿嘿突然想到-end 。

牛顿法

当使用牛顿法进行求根运算的时候，牛顿法是一维的，当牛顿法用于求极值的时候牛顿法就是二维的，为什么这么说呢？
牛顿法的本质是：通过迭代，逐步逼近目标值，也就是我们求的根或者是极值点。
当使用牛顿法进行求根操作时：
$\theta:\theta-\frac{f(\theta)}{f^{'}(x)}$
但是，当你使用牛顿法求解极值的时候，整个函数都会向上升一阶：
$\theta:\theta-\frac{f^{'}(\theta)}{f^{''}(x)}$
因此牛顿法是二阶收敛，现在理解的还不是很深刻等以后再去不去补全吧
未完待续…

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
对机器学习中的优化算法的整理

最小二乘法最小二乘法（又称最小平方法）是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据，并使得这些求得的数据与实际数据之间误差的平方和为最小具体的操作步骤：选择一个目标函数f(x)做优化函数g=∑i=1m(f(xi)−yi)2g=\sum_{i=1}^{m}(f(x_i)-y_i)^2g=i=1∑m(f(xi)−yi)2求使得g最小的f() ,也就是我们权值矩阵w。对于这种无约束优化，我们通常使用求导并令其为零的方式进行求解。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。