学习理论

最新推荐文章于 2024-09-07 00:50:09 发布

咸鱼小二

最新推荐文章于 2024-09-07 00:50:09 发布

阅读量580

点赞数

分类专栏：机器学习CS229个人笔记文章标签：机器学习

本文链接：https://blog.csdn.net/qq_33667088/article/details/72730383

版权

本文深入探讨机器学习理论，包括偏差与方差的概念，解释了模型复杂度如何影响这两者，并介绍了经验风险最小化（ERM）的基本思想。通过分析在有限函数空间集合H中的情况，讨论了经验误差与泛化误差的关系，以及学习算法的理论基础。

摘要由CSDN通过智能技术生成

本节主要讲述机器学习理论，它与机器学习的经典算法不同，是阐述机器学习算法为什么正确的这一类理论知识。在Ng看来，机器学习理论是一个人懂机器学习的核心或者只懂皮毛的关键所在之一。它包括的内容有偏差/方差、经验风险最小化(Empirical risk minimization,简称ERM)、联合界和一致收敛等。

Ng笔记中，针对学习理论提出了一些思考。他认为学习理论是有趣有启发性的。在不同的设置中，怎么样最好的使用学习算法（模型选择问题）。在这里，一考虑偏差与方差之间的均衡，使误差小，学习算法效率好。二则，学习算法其实真正关心的是泛化误差，但是往往我们只能得到经验误差（下一段介绍），二者之间什么关系，经验误差来估计泛化误差的理论基础是什么。第三，是否在一定条件下，学习型算法都工作的比较好（都收敛）（就是各种学习型算法得到的结果差额都不大）。那么这些的理论基础是什么？（这一部分涉及到了很多PAC理论的部分，可以自行参考）
这三条是本博文介绍围绕的核心。为什么根据训练数据就能推测其他数据，理论基础是什么；多大的样本数量可以导致预测结果好，这与模型有什么关系？

一.偏差与方差

先说下偏差与方差，它们主要是针对过拟合和欠拟合提出的一种思路。

偏差：描述估计值的期望与真实值之间的差距。
方差：描述估计值的变化范围和离散程度。

在机器学习中，如果模型过于简单，则可能带来更多偏差——估计的不确定性（同时有更小的方差）；模型复杂则可能带来更多方差——更大变化空间和不确定性（更小偏差）。这就好比模型做出假设与实际情况不符合时（欠拟合），会造成偏差。而从理性角度而言，同样的问题使用相同来源数据建立模型时，所建立的模型应当是相同的；就是方程近似相同。但是如果算法非常敏感（过拟合），模型有可能仅仅符合当前训练数据集的随机模式。这就会使测试集中数据引起波动，变化范围和离散程度大。

优化过程中，我们需要使模型在欠拟合和过拟合之间找到一个平衡位置。我们可以称偏差与方差共同作用，造成了误差。

二.ERM

机器学习的任务（至少在我当前水平在监督学习中）是根据一些训练样本来得出函数。我们将这些函数代入测试集中，用测试集中输入进行测试，测试集中的实际y值与函数输出值的期望风险（可以理解成误差）最小。这时，我们认为分类或回归等效果非常好。就是说我们希望泛化误差(就是模型在真实情况下的误差，一般用测试集来测试得到)最小。

实际情况是构造函数时我们用到的数据仅仅是训练数据集。因此构造函数时，我们无法利用测试集等数据的期望风险来得到函数，但是能确定利用已知的先验数据——训练集。这个时候，我们希望训练集样本的损失函数尽量小一点。根据这个思路来求得的参数的算法，就是ERM算法。（因为训练集也是所有取值空间一部分，我们希望它们分布由一致性。以极大似然角度考虑，它与泛化误差有关系）

经验风险最小化并不能使结果最优化，它还受方差和噪声误差影响。

以二分类问题为例(只是以二元为例，但是回归问题和多分类问题讲道理也是符合这个结论的)，介绍下等下要用得数学符合。

S={ (x(i),y(i));i=1,...m},表示训练集分类标签y∈{ 0,1}经验风险用ϵ(h)代表误差，h代表估计函数D代表可能的分布空间式（1）中损失函数L=1{ h(x(i))≠y(i)}在任意符号x上加上x^代表是估计值

$S=\{(x^{(i)},y_{(i)});i=1,...m\},表示训练集\\分类标签y\in{\{0,1\}}\\经验风险用\epsilon(h)代表误差，h代表估计函数\\D代表可能的分布空间\\式（1）中损失函数L = 1\{h(x^{(i)}) \neq y_{(i)}\}\\在任意符号x上加上\hat x代表是估计值$

经验风险为：
$ϵ^(h)=1m1{ h(x(i))≠y(i)}>...........(1)$ $\hat \epsilon(h) = \frac 1m1\{h(x^{(i)}) \neq y_{(i)}\} > ...........(1)$ 泛化误差为: $ϵ (h) = P (x, y) \sim D (h (x) \neq > y)$ $\epsilon(h) = P_{(x,y) \sim D}(h(x) \neq > y)$

经验风险（由测试集得出，有先验之意，故称经验），经验风险最小化就是使式（1）最小化。

下面以线性分类为例假设 $h_\theta(x) = 1\{\theta^Tx\ge0\}$ ，怎么找到最合适的 $\theta$ 呢。按照前几段的介绍，可以使经验风险最小，就是

θ^= a r g m i n

最低0.47元/天解锁文章

咸鱼小二

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
学习理论

本节主要讲述机器学习理论，它与机器学习的经典算法不同，是阐述机器学习算法为什么正确的这一类理论知识。在Ng看来，机器学习理论是一个人懂机器学习的核心或者只懂皮毛的关键所在之一。它包括的内容有偏差/方差、经验风险最小化(Empirical risk minimization,简称ERM)、联合界和一致收敛等。 Ng笔记中，针对学习理论提出了一些思考。他认为学习理论是有趣有启发性的。在不同的设置中，
复制链接

扫一扫

专栏目录