机器学习西瓜书学习笔记【第十二章】
第十二章 计算学习理论
12.1基础知识
计算学习理论研究的是关于通过“计算”来进行“学习”的理论,其目的是分析学习任务的困难本质。
12.2 PAC(近似可能正确)学习
机器学习两元素
模型
优化算法(假设选择算法)
假设空间
数据
所谓机器学习就是用优化算法从假设空间中选择一个假设,使此假设能符合给定的数据描述。
PAC学习关注点
PAC学习理论不关心假设选择算法,他关心的是能否从假设空间 H 中学习一个好的假设h (只关心能不能找得到)。
PAC辨识条件(”好假设“)
-
近似正确:泛化误差 E(h) 足够小
- E(h) 越小越好,最好泛化误差能等于0,但一般是不可能的。那我们就把 E(h) 限定在一个很小的数 η之内,即只要假设 h 满足 E(h) < η ,我们就认为 h 是正确的。
-
可能正确
- 不指望选择的假设 h 百分之百是近似正确的(按上段所述,即 E(h) < η ),只要 很可能 是近似正确的就可以,即我们给定一个值 μ ,假设 h 满足 P(h近似正确)>=1-μ。
简单的讲就是模型在短时间内利用少量的(多项式级别)样本能够找到一个假设 h ,使其满足 P(E(h) < η) >=1-μ,其中0<η,μ<1。
12.3有限假设空间
可分情形
不可分情形
12.4 V C VC VC维
直观定义
-
对一个指示函数集,如果存在 h h h个样本能够被函数集中的函数按所有可能的 2 h 2^h 2h种形式分开,则称函数集能够把 h h h个样本打散。
-
函数集的 V C VC VC维就是它能打散的最大样本数目 h h h。
-
若对任意数目的样本都有函数能将它们打散,则函数集的 V C VC VC维是无穷大。
适用场景: V C VC VC维是一个评判模型复杂程度的工具。 V C VC VC维越大则模型的复杂度越高。一般情况下,假设空间的 V C VC VC维约等于假设自由变量的数目。
线性函数的 V C VC VC维
结论: d d d维空间超平面的 V C VC VC维是 d + 1 d+1 d+1
V C VC VC维与 S V M SVM SVM的关系
-
支持向量机方法是建立在统计学习理论的 V C VC VC维理论和结构风险最小原理基础上。
-
S V M SVM SVM是结构风险最小化。(结构风险:置信风险 + 经验风险)
-
置信风险的影响因素有:训练样本数目和分类函数的 V C VC VC维。
-
训练样本数目,即样本越多,置信风险就可以比较小;
-
V C VC VC维越大,问题的解的种类就越多,推广能力就越差,置信风险也就越大。
-
因此,增加样本数,降低 V C VC VC维,才能降低置信风险。
-
而一般的分类函数,需要提高VC维,即样本的特征数据量,来降低经验风险,如多项式分类函数。如此就会导致置信风险变高,结构风险也相应变高。过度学习即overfit,就是置信风险变高的缘故。
12.5 R a d e m a c h e r Rademacher Rademacher复杂度
引入原因:
-
1. V C VC VC维的可学习性分析结果具有一定的普适性(对任何数据分布都成立)。
-
2.由于它的普适性,所以没有考虑数据自身,所以基于 V C VC VC维得到的泛化误差通常比较松。
-
3. R a d e m a c h e r Rademacher Rademacher复杂度在一定程度上考虑上了数据自身的分布。
思想:通过衡量一个假设对随机噪声的拟合程度好坏来评估这个函数族的复杂度。
适用场景:学习理论中用于衡量函数类复杂度的一种工具。
12.6稳定性
引入原因:
-
V C VC VC维和 R a d e m a c h e r Rademacher Rademacher复杂度得到的结果与具体学习算法无关,对所有学习算法都适用.
-
稳定性分析——获得与算法相关的分析结果。
算法的稳定性考察的是算法在输入发生变化时,输出是否会随之发生较大的变化,学习算法的输入是训练集.