什么是统计学习
统计学习就是:用于对数据进行预测与分析,特别是对未知新数据进行预测与分析。
从给定 的、有限的、用于学习的训练数据(training data)集合出发,假设数据是独立同分 布产生的;并且假设要学习的模型属于某个函数的集合,称为假设空间(hypothesis space);应用某个评价准则(evaluation criterion),从假设空间中选取一个最优的 模型,使它对已知训练数据及未知测试数据(test data)在给定的评价准则下有最 优的预测;最优模型的选取由算法实现
述监督学习中的统计学习三要素
1.模型(假设空间):
模型就 是所要学习的条件概率分布或决策函数.模型的假设空间(hypothesis space)包 含所有可能的条件概率分布或决策函数。简单说就是决策函数与概率模型。
2.策略:
有了模型的假设空间,统计学习接着需要考虑的是按照什么样的准则学习或 选择最优的模型.统计学习的目标在于从假设空间中选取最优模型。
这里可以用损失函数和风险函数。
当样本数据无限大的时候经验风险就会趋于期望风险,目的就是选取期望风险最小的模型
P(x,y)。
由于样本数量有限,所以对经验风险进行一定的矫正。这里就引出了监督学习的两个策略:
经验风险最小化 : 经验风险最小的模型是最优的模型.根据这一策略,按照经验风险最小化求最优 模型就是求解最优化问题
其中,F是假设空间. 当样本容量足够大时,经验风险最小化能保证有很好的学习效果.
但是,当样本容量很小时,经验风险最小化学习的效果就未必很好,会产生“过拟合(over-fitting)”现象
过拟合是指学习时选择的模型所 包含的参数过多,以致于出现这一模型对已知数据预测得很好,但对未知数据预 测得很差的现象.可以说模型选择旨在避免过拟合并提高模型的预测能力.
训练集,验证集,测试集通个这个现象我们发现拟合问题。
结构风险最小化:
结构风险最小化等价于正则化(regularization)
结构风险在经验风 险上加上表示模型复杂度的正则化项(regularizer)或罚项(penalty term).在假 设空间、损失函数以及训练数据集确定的情况下,结构风险的定义是:
这样,监督学习问题就变成了经验风险或结构风险函数的最优化问题(1.11) 和(1.13).这时经验或结构风险函数是最优化的目标函数。
3.算法:
算法是指学习模型的具体计算方法.统计学习基于训练数据集,根据学习策 略,从假设空间中选择最优模型,最后需要考虑用什么样的计算方法求解最优模型。
正则化与交叉验证:
p = 2就是L2范数。
交叉验证:
S 折交叉验证 : 应用最多的是 S 折交叉验证(S-fold cross validation),方法如下:首先随机地 将已给数据切分为 S 个互不相交的大小相同的子集;然后利用 S - 1个子集的数据 训练模型,利用余下的子集测试模型;将这一过程对可能的 S 种选择重复进行;最 后选出 S 次评测中平均测试误差最小的模型。
泛化误差:
学习方法的泛化能力(generalization ability)是指由该方法学习到的模型对 未知数据的预测能力,是学习方法本质上重要的性质.
R^(f)是经验风险(就是训练误差),R(f)是期望风险(就是泛化误差),局限性是有限个模型。
生成模型与判别模型:
监督学习的任务就是学习一个模型,应用这一模型,对给定的输入预测相应 的输出.这个模型的一般形式为决策函数或者条件概率分布。
监督学习方法又可以分为生成方法和判别方法,所学到的模型分别称为生成模型和判别模型。
生成方法:
判别方法:
分类问题: