一 统计学习方法概论
1.1统计学习
学习:一个系统能够通过执行某个过程而得到性能的提升,那么这个过程就是学习。
对象:数据
处理过程:数据→特征→模型→知识→预测
学习方法分类:监督、半监督、非监督、强化学习
基本假设:
- 数据独立同分布
- 要学习的模型属于某个函数的集合
1.2监督学习
监督学习:学习一个模型,使得对任意给定的输入,对其输出进行好的预测
输入空间可以为特征空间,也可以为输入向量映射到特征向量得到的空间
- 输入输出均为连续变量——回归
- 输出为有限个离散变量——分类
- 输入输出均为变量序列——标注
假设:存在输入输出随机向量的联合分布函数P(X,Y),训练数据与测试数 据都是由该分布独立同分布产生的
假设空间(模型空间):由输入空间到输出空间的映射的集合
模型的表示:Y=f(X) 或 p(Y|X)
1.3统计学习三要素
统计学习三要素:模型,策略,算法
模型:要学习的预测函数或条件概率分布函数
策略:学习准则或模型最优标准
算法:学习模型的具体计算方法
损失函数:一次预测好坏的评判
- 0-1
- 绝对值
- 平方
- 对数
风险函数:平均意义下的预测好坏评判,即损失函数的期望
学习的目标:选择期望风险最小的模型
两种途径:
- 用(训练样本的)经验风险近似期望风险(样本量大时有效)——最大似然估计
- 用加上与模型复杂的成正比的罚项构成结构风险近似期望风险(防止过拟合)——贝叶斯估计中的最大后验概率估计
具体算法:最优化
过拟合现象:模型的复杂度过高,对已知数据预测很好,对未知数据预测能力很差
为防止过拟合现象出现,应当选择合适的模型复杂度,使得预测误差最小,具体操作:
- 向最优化目标函数中加入正则化项(罚项)
例如:参数向量的1、2范数 - 交叉检验
例如:针对不同参数个数的模型的选择、针对不同训练集测试集数据分配产生模型的选择
泛化误差:模型对于未知数据的预测误差