机器学习优化模型——随机抽样的一般优化模型

最新推荐文章于 2024-08-16 08:06:57 发布

Zoro1996

最新推荐文章于 2024-08-16 08:06:57 发布

阅读量1.4k

点赞数

分类专栏：机器学习个人学习人工智能文章标签：机器学习

本文链接：https://blog.csdn.net/qq_33997826/article/details/104999813

版权

本文探讨了在机器学习中，由于样本数量巨大，如何通过随机抽样的优化模型来更新模型参数。介绍了随机梯度优化算法（SG）和批量样本优化算法，讨论了它们的优缺点和在实际应用中的表现。一阶优化算法的理论分析中，强调了李普希兹条件在梯度下降算法中的重要性，并提出了优化策略，包括提高下降方向与梯度的重合度和减小随机梯度的二阶矩。

摘要由CSDN通过智能技术生成

文章目录

4.1 随机抽样的一般优化模型

假设我们的模型的在样本i上面的损失函数是 $\ell\left(\mathrm{h}\left(\mathrm{x}_{\mathrm{i}}, \mathrm{w}\right), \mathrm{Y}_{\mathrm{i}}\right)$ ，则平均经验风险： $\mathrm{R}_{\mathrm{n}}(\mathrm{w})=\frac{1}{\mathrm{n}} \sum_{\mathrm{i}=1}^{\mathrm{n}} \ell\left(\mathrm{h}\left(\mathrm{x}_{\mathrm{i}}, \mathrm{w}\right), \mathrm{Y}_{\mathrm{i}}\right)$ 。在个数为N的训练集上有：
$\min _{w \in \mathbb{R}^{d}} R_{n}(w)=\frac{1}{n} \sum_{i=1}^{n} \ell\left(h\left(x_{i}, w\right), Y_{i}\right)$

但是呢，n一般是很大的，计算上面的和式都不现实，更不用说再对它计算导数，然后迭代求解了。因此一般是通过多样本进行随机抽样，来进行梯度更新和模型优化。设第 k 次迭代时由随机变量 $\zeta^{k}$ 从全样本中随机产生一个子集合 $S_{k} \subseteq \mathbb{Q}$
,相应的目标
函数变为:
$\mathrm{F}_{\mathrm{k}}(\mathrm{w})=\mathrm{F}_{\mathrm{k}}\left(\mathrm{w}: \xi^{\mathrm{k}}\right) \triangleq \mathrm{F}\left(\mathrm{w} ; \mathrm{S}_{\mathrm{k}}\right)=\frac{1}{\left|\mathrm{S}_{\mathrm{k}}\right|} \sum_{\mathrm{i} \in \mathrm{S}_{\mathrm{k}}} \mathrm{f}_{\mathrm{i}}\left(\mathrm{w} ; \mathrm{x}_{\mathrm{i}}, \mathrm{Y}_{\mathrm{i}}\right)$

4.1.1随机梯度优化算法（SG）

每次随机选取一个样本点，根据这个样本点决定优化的方向 $d_k$

在实际应用中,如果我们把每个样本都被计算梯度称做一个周期。那么批处理方法每个
周期只能迭代一次,而 SG 可以迭代 n 次。但是 SG 也有一些缺点,如其每次迭代的方向并
不一定是下降方向,步长需要调节,无法利用现有线搜索技术等。

4.1.2批量样本优化算法

$\mathrm{g}\left(\mathrm{w}^{\mathrm{k}}, \xi^{\mathrm{k}}\right)=\left\{\begin{array}{l} \nabla \mathrm{f}\left(\mathrm{w}^{\mathrm{k}} ; \xi^{\mathrm{k}}\right) 简单的随机梯度法\\ \frac{1}{\left|\mathrm{S}_{\mathrm{k}}\right|_{\mathrm{i} \in \mathrm{S}_{\mathrm{k}}}} \nabla \mathrm{f}_{\mathrm{i}}\left(\mathrm{w}^{\mathrm{k}} ; \mathrm{x}_{\mathrm{i}}, \mathrm{Y}_{\mathrm{i}}\right) 简单的随机梯度法\\ \mathrm{H}_{\mathrm{k}} \frac{1}{\left|\mathrm{S}_{\mathrm{k}}\right|} \sum_{\mathrm{i} \in \mathrm{S}_{\mathrm{k}}} \nabla \mathrm{f}_{\mathrm{i}}\left(\mathrm{w}^{\mathrm{k}} ; \mathrm{x}_{\mathrm{i}}, \mathrm{Y}_{\mathrm{i}}\right)批量二阶方法 \end{array}\right.$