统计学习方法 第1章 统计学习方法概论
统计学习 是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。
统计学习包括监督学习,非监督学习,半监督学习和强化学习。本书主要讨论监督学习问题。
输入实例x的特征向量:
监督学习 从训练数据集合中学习模型,对测试数据进行预测。
训练数据由输入与输出对组成:
监督学习分为学习和预测两个过程,首先学习系统利用给定的训练数据集,通过学习得到一个模型,随后预测系统对给定的测试样本中的输入由模型给出相应的输出。
统计学习方法的三要素:模型 , 策略 和 算法 。
- 模型:所要学习的条件概率分布或决策函数,其假设空间包含所有可能的条件概率分布或决策函数
- 策略:按照什么样的准则学习或选择最优的模型,如损失函数和风险函数
- 算法:求解最优模型的具体计算方法
假设学习到的模型是,则 训练误差 是模型关于训练数据集的平均损失:
其中L为 损失函数 ,如0-1损失,平方损失等。
测试误差 是模型关于测试数据集的平均损失:
当假设空间含有不同复杂度的模型时,就要面临模型选择的问题。若模型复杂度比过高,包含参数过多,则会出现 过拟合 现象,对已知数据预测得很好,但对未知数据预测得很差。
常用的模型选择方法包括正则化与交叉验证。
正则化 在经验风险上加上一个正则化项,一般是模型复杂度的单调递增函数:
其中λ为系数。
若样本充足,进行模型选择的一种方法是将数据集随机切分成三部分,分别为训练集,验证集和测试集,训练集用来训练模型,验证集用于模型选择,测试集用于最终评估。
若样本不足,则使用 交叉验证 的方法,将数据集切分并组合为训练集和测试集,反复进行训练,测试和模型选择。
泛化能力 指学习到的模型对位置数据的预测能力。模型对位置数据的预测误差即为泛化误差:
监督学习又可分为 生成方法 和 判别方法 。
生成方法由数据学习联合概率分布P(X,Y),然后求出概率分布P(Y|X),即生成模型:
。
判别方法由数据直接学习决策函数f(X)或条件概率分布P(Y|X),即判别模型。
分类 是监督学习的一个核心问题,本书主要讨论二类分类问题。
对于二类分类问题的常用评价指标是精确率和召回率:
- TP:将正类预测为正类
- FN:将正类预测为负类
- FP:将负类预测为正类
- TN:将负类预测为负类
精确率定义为
召回率定义为