机器学习入门（二）——机器为何能学？

本文链接：https://blog.csdn.net/SCUEC__zhazhahui/article/details/121553533

本文探讨了机器学习中大数定律的作用，解释了模型复杂度与样本数量的关系，强调了样本量的重要性。同时，介绍了欠拟合和过拟合的概念，过拟合是由于模型复杂度过高或数据不足导致的。解决过拟合的方法包括正则化和数据集划分。正则化通过限制参数权重来避免模型过度复杂，而交叉验证有助于优化模型性能，确保样本数据的有效利用。

摘要由CSDN通过智能技术生成

机器为何能学

大数定律或 Hoeffding’ s inequality指出：样本数越大，统计值与真实值接近的概率越高。
大数定律与生活：是金子总会发光的。出来混，总是要还的。

前提一：假设空间不能过大

Hoeffding’ s inequality指出，一个假设出现乐观欺骗的概率的上限为：
$2exp(-2\varepsilon^2N)$ ，
那么 $M$ 个假设就会使这个概率增大 $M$ 倍，即概率的上限变为了：
$2Mexp(-2\varepsilon^2N)$ 。
为了使这个概率收敛，这就要求我们的模型不能过于复杂，即假设空间的增长速度至少小于指数级别。

如何达到呢？

对于一个假设，如果从 $N$ 个样本开始，模型无法表示全部解的可能，那么将 $N$ 称为Break Point，这时 $N - 1$ 就被称为Vc-dim（至于这东西怎么求，我也不知道）。
数学上可以证明，当样本数量超过Break Point时， $M$ 逐渐<< $2^N$ 。因此样本数量要充足。样本量的实际经验， $N > 10 *$ Vc-dim
例如，对于线性模型，Vc-dim=特征数量+1。越复杂的模型需要越多的样本数量。