统计学习介绍
- 统计学习三要素:模型、算法、策略
- 模型就是要学习的条件概率分布(概率模型)/决策函数(非概率模型)
- 统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科.统计学习也称为统计机器学习 (statistical machine learning).
- 统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这里的同类数据是指具有某种共同性质的数据,所以可用概率统计方法来处理
假设空间
- 假设空间就是关于 ( X , Y ) (X,Y) (X,Y)的所有可能的决策函数或者条件概率函数的集合 F = { P ∣ P θ ( Y ∣ X ) , θ ∈ R n } F=\{P|P_{\theta}(Y|X),\theta\in R^n\} F={P∣Pθ(Y∣X),θ∈Rn}
- 而统计学习的目标就在于寻找其中最优的函数
策略
损失函数与风险函数
- 常用的损失函数有01损失、绝对损失、平方损失、对数损失
- 对数损失:计算的是概率
- 对数损失:计算的是概率
- 损失函数的期望,就是风险函数或期望(expected)损失
- 学习目标是选择期望最小的模型
- 但是P(X,Y)是未知的,否则直接就能求出P(Y|X)了
- 这是一个病态问题: 我要求的问题成为了我解决问题的条件?
- 经验(empirical)风险或经验损失: 训练数据集的平均损失值
- 根据大数定律,当N趋向于无穷时,经验损失=风险损失,即 R e m p = R e x p R_{emp}=R_{exp} Remp=Rexp
- 虽然但是,在现实中,训练样本的数量还是有限的,无法如理想情况般趋于无穷
- 所以此时用经验风险估计期望风险不理想
- 要对经验风险进行一定矫正
- 由此引出监督学习的两个策略:经验风险最小 and 结构风险最小
经验风险最小化
- F \mathscr{F} F是假设空间
- 当样本容量足够大时,效果好
- 经验损失最小原则有一个重要应用——极大似然估计(样本独立同分布)
-
此时的损失函数是对数损失函数,模型是条件概率分布
-
此时的经验损失最小=极大似然估计
-
-
-
这是频率学派:他们认为世界是确定的。他们直接为事件本身建模,也就是说事件在多次重复实验中趋于一个稳定的值p,那么这个值就是该事件的概率
-
选择怎样的参数才能最大化事件发生的概率
-
结构风险最小化(SRM)
- 为了防止过拟合提出
- 结构风险最小化=正则化
- =经验风险最小化+模型复杂度的正则化项/罚项
- J ( f ) J(f) J(f)为模型复杂度,模型越复杂,值越大,表示对模型复杂的惩罚
- λ ≥ 0 \lambda\ge0 λ≥0
- 应用结构风险最小的一个例子——贝叶斯估计中的最大后验概率估计
- 模型是条件概率,损失是对数损失
- 依然是根据已知样本,来通过调整模型参数使得模型能够产生该数据样本的概率最大,只不过对于模型参数有了一个先验假设,即模型参数可能满足某种分布,不再一味地依赖数据样例
- So
算法
- 算法是指学习模型的具体计算方法
- 统计学习基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后需要考虑用什么样的计算方法求解最优模型
- 此时问题变成最优化问题的求解
- 通常最优化问题的显式解析解不存在,这时需要用数值分析里的一些方法来逼近,保证找到全局最优解+高效快速地找到 是关键
为了解决过拟合问题,一般有两种方法
1.5正则化与交叉检验
正则化
- 正则化项一般是模型复杂度的单调递增函数
- 回归问题中,损失函数是平方损失,正则化项是参数向量的 L 2 L_2 L2范数
- 结构风险最小化在这里和最大后验概率估计联系起来了——从贝叶斯估计的角度来看,正则化项对应于模型的先验概率,可以假设复杂的模型有较大的先验概率,简单的模型有较小的先验概率.(奥卡姆剃刀原理)
- 加入正则化项是希望在所有可选择的模型里选择,能解释数据+简单的,
交叉检验
- 基本想法:重复使用数据(当训练数据不够时)
- 运用最多的是S折交叉验证:数据量同等大小的S份,S-1份拿来训练,一份拿来测试,得到S个模型,在这S个模型中找最优的那个,返回参数
- 特殊的:留一法,测试集只有一个数据,其他都拿来训练
1.6泛化能力
- 指模型对未知数据的预测能力
- 泛化误差
- 泛化误差就是模型学习到的期望风险
- 泛化误差更小的模型,学习方法更有效