机器学习中的优化问题

最新推荐文章于 2023-11-03 15:53:16 发布

Shingle_

最新推荐文章于 2023-11-03 15:53:16 发布

阅读量2.8k

点赞数 2

分类专栏：机器学习文章标签：优化梯度下降

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Shingle_/article/details/81987311

版权

本文探讨了机器学习中的最优化问题，包括有解析解和无解析解的情况。重点讲解了梯度下降法及其各种变种，如SGD、Momentum、Adagrad、Adadelta、RMSprop和Adam。这些方法广泛应用于朴素贝叶斯、感知机、逻辑回归等模型的参数优化。此外，还提到了牛顿法、拟牛顿法和拉格朗日对偶性在解决最优化问题中的应用。

摘要由CSDN通过智能技术生成

最优化问题：

解析解存在：最优解可以由公式简单计算
没有解析解
- 数值计算
- 启发式方法

例：

朴素贝叶斯、隐马尔可夫：最优解即极大似然估计值，可由概率计算公式直接计算
感知机、逻辑回归、最大熵模型、条件随机场：利用梯度下降法、拟牛顿法等。无拘束最优化问题的解法。
支持向量机：解凸二次规划的对偶问题。有序列最小最优化算法等。
决策树：启发式算法。特征选择、生成、剪枝是启发式地进行正则化的极大似然估计。
提升方法：加法模型、指数损失函数。启发式地从前往后逐步学习，逼近优化目标函数。
EM算法：迭代的求解隐变量概率模型参数，收敛性可以保证，但不能保证收敛到全局最优。

其中凸优化问题：支持向量机、逻辑回归、最大熵模型、条件随机场，全局最优解保证存在。

最优化算法

迭代尺度法
牛顿法：迭代算法，每一步需要求解目标函数的海塞矩阵的逆矩阵，计算比较复杂
拟牛顿法：通过正定矩阵近似海塞矩阵的逆矩阵或海塞矩阵
梯度下降法

拉格朗日对偶性：在约束最优化问题中，常常利用拉格朗日对偶性（Lagrange duality）将原始问题转换为对偶问题，通过解对偶问题而得到原始问题的解。如：最大熵模型、支持向量机。

梯度下降参数更新方法

梯度下降法是求解无约束最优化问题的一种最常用的方法，有实现简单的优点。梯度下降是迭代算法，每一步需要求解目标函数的梯度向量。

当目标函数是凸函数时，梯度下降法的解是全局最优解。一般情况下，其解不保证是全局最优解。

SGD

Δ θ t = - α g t

$\Delta \theta_t = - \alpha g_t$

Momentum

m t = γ m t - 1 + (1 - γ) g t

$mt = \gamma m_{t-1} + (1- \gamma)g_t$

Δ θ t = - α m t

$\Delta \theta_t = - \alpha m_t$

Adagrad

G t = G t - 1 + g 2 t

$G_t = G_{t-1} + g_t^2$

最低0.47元/天解锁文章

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。