机器学习之优化算法（一）之损失函数

最新推荐文章于 2024-09-18 00:20:46 发布

deardao

最新推荐文章于 2024-09-18 00:20:46 发布

阅读量1.8k

点赞数

分类专栏：深度学习人工智能优化文章标签：优化损失函数优化算法机器学习人工智能

本文链接：https://blog.csdn.net/liangdaojun/article/details/100877684

版权

深度学习同时被 3 个专栏收录

8 篇文章 1 订阅

订阅专栏

人工智能

8 篇文章 0 订阅

订阅专栏

优化

5 篇文章 0 订阅

订阅专栏

优化算法的分类

在这里插入图片描述
分类算法的方式有多种多样，并没有一个统一的标准，这里只是其中一种形式。上图参考自这里。

损失函数

损失函数被称为 cost function, object function, loss function等，这里不区分几种用法的微小区别。
机器学习离不开目标函数，我们分析一下目标函数：
在这里插入图片描述
其中，前一项是经验风险，后一项是结构风险。前者是为了增加 ML 对已有系统的 fitting，后者是尽量减少 ML 模型的复杂度，以避免 overfitting。整个损失函数称为正则化经验风险最小化（R-ERM），对其进行简化：
在这里插入图片描述
假设优化算法在其结束时的第 T 步选代中输出的模型是 $w_T$ ， $w^*=argmin_w f(w)$ ，一个有效的优化算法会随着法代的进行使输出的模型 $w_T$ 越来越接近于最优模型 $w^*$ :

$\varepsilon(T) \rightarrow 0$ 则算法是收敛的。通常使用 $log(\varepsilon(T))$ 来评价收敛率，如果其与 T 同阶，则该算法具有线性收敛率，如果小于 T 称为次线性收敛率，如果大于 T 则称为超线性收敛率。然而，正则化风险最小化的优化算法并不一定总是收敛的，需要目标函数具有相对良好的性质，为此我们需要引人一些基木的假设条件。例如，我们一般假设 R-ERM 具有凸性、光滑性，凸优化问题已经被人们很好的掌握了，利用凸函数可以比较好的对损失进行分析：
在这里插入图片描述
其中，w,v是f的两个参数（自变量）。相对的强凸函数为：

其中，||.||是范数，上式称为 $\alpha-$ 强凸（strong convex）。

在这里插入图片描述
另外，我们可以利用 Lipschitz 性质来描述一个函数的光滑性（smooth，函数的一个小变量，带来函数值的小变化，不出现跳跃），如果函数的变化值满足：

则称 f 是关于模 || || 是 Lipschitz 连续的。对于可导函数，其光滑性依赖其可导性：
在这里插入图片描述
称上式为 $\beta-$ 光滑的，它和 $\alpha-$ 强凸的形式是一样的。