第九课 Learing Theory

最新推荐文章于 2024-03-30 21:55:18 发布

一束光流

最新推荐文章于 2024-03-30 21:55:18 发布

阅读量315

点赞数

分类专栏：机器学习笔记

机器学习笔记专栏收录该内容

9 篇文章 0 订阅

订阅专栏

Learing Theory

该部分主要让我们对机器学习算法有一定的认知分析能力，而不是只知道如何调取函数，成为调包侠。对算法提前进行分析可以提高研究效率。

1.bias-variance tradeoff

参考线性回归，偏差方差权衡
bias：可以认为是generalization error,即样本集的训练误差。当欠拟合时，bias偏大
variance：当训练得到的模型迁移到另外一组样本时，得到的结果与训练结果之间差异的大小。过拟合时，variance会变大。

损失函数=偏差^2+方差+固有噪音。
下面这张图能够帮助理解：
这里写图片描述

接下来介绍一些定义
training error：
这里写图片描述
generalization error：

empirical risk minimization (ERM)：

该过程我们叫做ERM，这是一种基础的学习算法。
我们将这种方法进行推广，加入我们想得到非线性的模型，因此我们定义 $hypothesis class H$ 为一些分类模型的集合。在该假设下，将ERM推广我们得到问题的模型为挑选最合适的h模型：
这里写图片描述

two lemmas

这里写图片描述

这两条定理能够帮助我们在后面的推导中得到probablity，样本训练个数m，H中模型个数k之间存在的关系。

2.The case of finite H

定义：
这里写图片描述
那么在Z中各事件满足条件独立分布IID时，我们可以得到：

该近似的可信程度由lemma2给出：

$\gamma$ 为任意固定的正数，m为训练样本个数，该式表明在一定可信程度下，可以用training error代替generalization error。
接下来我们想证明该结论当 $h\epsilon H$ 依然成立：
这里写图片描述

因此我们得到对于集合内所有的h，error估计误差都会在 $\gamma$ 范围内。
对于给定的指标，我们可以计算出必须的训练个数：

不同算法为了得到相同的performance所需要的不同训练集大小成为sample complexity。值得注意的一点，m~ $O(log(k)$ ,这个性质很重要，在后面会用到。
同样我们可以得到：
这里写图片描述