一、概论
1.1 统计学习
统计学习方法三要素:模型、策略、算法
即:模型的假设空间、模型选择的准则、模型学习的算法
1.2 监督学习
监督学习的基本假设:X和Y具有联合分布,即X和Y存在一定的统计规律。
输入变量与输出变量均为连续变量的预测问题称为回归问题;
输出变量为有限个离散变量的预测问题成为分类问题;
输入变量与输出变量均为变量序列的预测问题成为标注问题。
监督学习的目的:学习一个由输入到输出的映射。
1.3 统计学习三要素
模型:
条件概率分布(概率模型) or 决策函数(非概率模型)
策略:
损失函数(lost function)或代价函数(cost function)
用损失函数或代价函数来度量错误的程度。
风险函数(rist function)或期望损失(expected loss)
损失函数越小,模型越好,损失函数的期望为:
学习的目标是选择期望风险最小的模型。
但是联合分布P(X,Y)不可知,需要学习。
因此使用经验风险(empirical risk)或经验损失(emprical loss)衡量损失。
经验风险是模型关于训练样本集的平均损失,当样本容量N趋于无穷时,经验风险趋于期望风险。
但现实中训练样本数目有限,因此需要对经验风险进行矫正:经验风险最小化和结构风险最小化。
经验风险最小化(ERM)认为经验风险最小的模型是最优的模型。
当样本容量够大时,经验风险最小化能保证很好的学习效果,比如最大似然估计。
当模型是条件概率模型,损失函数是对数损失函数时,经验风险最小化就等价于极大似然估计。
但是当样本容量很小时,经验风险最小化效果未必很好,会产生“过拟合”现象。
结构风险最小化(SRM)是为了防止过拟合提出的的策略,结构风险最小化等价于正则化(regularizer)。
J(f)为模型的复杂度,模型越复杂,J(f)越大;反之越小。
结构风险小需要经验风险与模型复杂度同时小。
比如贝叶斯估计中的最大后验概率估计(MAP)就是结构风险最小化的一个例子。
当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时,结构风险最小化就等价于最大后验概率估计。
所以求最优模型就是结构风险最小化的过程。这时,经验或结构风险函数就是最优化的目标函数。
算法:
算法是指学习模型的具体计算方法。
算法要解决的问题:保证找到全局最优解,并使求解过程高效。
1.4 模型评估与模型选择
训练误差与测试误差
1.5 模型选择方法:正则化与交叉验证
交叉验证将数据集分成三部分:训练集,验证集,测试集
1.6 泛化能力:
1.7 生成模型与判别模型
生成方法学习联合分布P(X,Y),然后求概率分布P(Y|X)作为预测的模型。
例如:朴素贝叶斯法、隐马尔科夫模型。
判别方法有数据直接学习决策函数f(x)或者条件概率分布P(Y|X)作为预测的模型。
例如:决策树、支持向量机、K邻近法、感知机、最大熵、条件随机场等。