【机器学习西瓜书学习笔记——计算学习理论】

最新推荐文章于 2024-09-16 21:06:28 发布

未来、梦想

最新推荐文章于 2024-09-16 21:06:28 发布

阅读量790

点赞数 23

文章标签：机器学习学习笔记

本文链接：https://blog.csdn.net/m0_51148715/article/details/141139530

版权

第十二章计算学习理论

计算学习理论研究的是关于通过“计算”来进行“学习”的理论，其目的是分析学习任务的困难本质。

所谓机器学习就是用优化算法从假设空间中选择一个假设，使此假设能符合给定的数据描述。

PAC学习理论不关心假设选择算法，他关心的是能否从假设空间 H 中学习一个好的假设h （只关心能不能找得到）。

近似正确：泛化误差 E(h) 足够小
- E(h) 越小越好，最好泛化误差能等于0，但一般是不可能的。那我们就把 E(h) 限定在一个很小的数 η之内，即只要假设 h 满足 E(h) < η ，我们就认为 h 是正确的。
可能正确
- 不指望选择的假设 h 百分之百是近似正确的（按上段所述，即 E(h) < η ），只要很可能是近似正确的就可以，即我们给定一个值 μ ，假设 h 满足 P(h近似正确)>=1-μ。

简单的讲就是模型在短时间内利用少量的(多项式级别)样本能够找到一个假设 h ，使其满足 P(E(h) < η) >=1-μ，其中0<η，μ<1。

适用场景： $V C$ 维是一个评判模型复杂程度的工具。 $V C$ 维越大则模型的复杂度越高。一般情况下，假设空间的 $V C$ 维约等于假设自由变量的数目。

结论： $d$ 维空间超平面的 $V C$ 维是 $d + 1$

支持向量机方法是建立在统计学习理论的 $V C$ 维理论和结构风险最小原理基础上。
$S V M$ 是结构风险最小化。(结构风险：置信风险 + 经验风险)
置信风险的影响因素有：训练样本数目和分类函数的 $V C$ 维。
- 训练样本数目，即样本越多，置信风险就可以比较小；
- $V C$ 维越大，问题的解的种类就越多，推广能力就越差，置信风险也就越大。
- 因此，增加样本数，降低 $V C$ 维，才能降低置信风险。