【机器学习】李宏毅——浅谈机器学习原理+鱼与熊掌兼得的深度学习简述

本文链接：https://blog.csdn.net/StarandTiAmo/article/details/126712235

如何评判一个训练集的好坏

如果我们希望得到一个训练集，并且用该训练集所训练出来的模型，在训练集上的误差和在整个数据空间上的误差相距较小，即写成如下表达式：
$L(h^{train},D_{all})-h(h^{all},D_{all})\leq \delta$
那么训练集 $D_{train}$ 应该满足的条件为：
$\forall h \in H,\lvert L(h,D_{train})-L(h,D_{all}) \rvert \leq \frac{\delta}{2}$
即对于假设空间中的任何模型在训练集上的误差和在整个数据空间上的误差之间的误差都小于某个值。推导过程如下：
$L(h^{train},D_{all}) \leq L(h^{train},D_{train}) + \frac{\delta}{2} \\ \leq L(h^{all},D_{train}) + \frac{\delta}{2}\\ \leq L(h^{all},D_{all}) + \frac{\delta}{2} +\frac{\delta}{2}=L(h^{all},D_{all}) +\delta$
因此，我们总希望得到一个好的样本集，其能够满足：
$\forall h \in H,\lvert L(h,D_{train})-L(h,D_{all}) \rvert \leq \varepsilon\\$
下面则来探讨一下我们选取到坏的数据集的概率。

由前述的讨论可知，一个 $D_{train}$ 是坏的，则至少存在一个h使得它不满足上式，那么可以认为：
$P(D_{train}\quad isbad)=\bigcup_{h\in H}P(D_{train} \quad is bad\quad dueto\quad h)\quad 所有可能的交集\\ \leq \sum_{h\in H}P(D_{train} \quad is bad\quad dueto\quad h)\\ \leq \sum_{h\in H}2exp(-2N\varepsilon ^2)=\lvert H \rvert 2exp(-2N\varepsilon ^2)\quad 根据不等式得到的$
那么可以看到：增加训练集样本的数据 $N$ 或者减少假设空间的大小 $\lvert H \rvert$ 都可以使得拿到坏数据集的概率降低

但在实际运用中很少采用这样来进行衡量，因为随机计算一下上界就大于1了，这只是给我们启发如何做而已。

而在现实中通常另外收集数据这个方法很难实现，那如果刻意去减少 $H$ 的大小呢，这虽然可以使上界降低，但如果使得 $H$ 都没有能够让损失函数很小的假设，那这个减少就很没有意义了。如下图，虽然在更小的 $H$ 能够让训练假设的误差更接近于完美假设的误差，但这个完美假设是在这个小的假设空间中选出来的，很可能它本身的误差就很大。
在这里插入图片描述