统计学习方法概论
介绍了统计学习的定义、研究对象与方法。提出了三要素:模型、策略和算法;介绍了模型选择,包括正则化、交叉验证和学习的泛化能力;介绍生成模型和判别模型;介绍监督学习的应用:分类、标准和回归。
统计学习
统计学习是关于计算机基于数据构建概率统计模型并运用模型对象进行预测与分析的学科。
- 统计学习的对象是数据。
- 统计学习的目的是对数据进行预测与分析。
- 统计学习的方法是监督学习、非监督学习、半监督学习、强化学习。
实现统计学习的步骤:
- 得到一个有限的训练数据集集合;
- 确定假设空间,即学习模型的集合;
- 确定模型选择的标准,即学习的策略;
- 实现求解最优模型的算法,即学习的算法;
- 通过学习方法选择最优模型;
- 利用学习的模型对新数据进行预测或分析。
监督学习
监督学习的任务是学习一个模型,使模型能够对任意给定的输入,给出相应的输出做出一个好的预测。
输入变量与输出变量均为连续变量的预测问题称为回归问题;
输出变量为有限个离散变量的预测问题称为分类问题;
输入变量与输出变量均为变量序列的预测问题为标注问题。
统计学习三要素
方法=模型+策略+算法
策略
损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。
学习目标是使经验风险最小化。
但当样本容量很小时,经验风险最小化的学习效果未必最好,会产生过拟合现象,所以引入结构风险。学习目标也是使结构风险最小化。
模型评估与模型选择
训练误差与测试误差
测试误差小的方法具有更好的预测能力。
通常将对未知数据的预测能力称为泛化能力。
过拟合是指学习时选择的模型所包含的参数过多,以至于出现这一模型对已知数据预测的好,但对未知数据预测的差的问题。
正则化与交叉验证
正则化是结构风险最小化策略的实现,是在经验风险后加一个正则化项或罚项。正则化项一般是模型复杂度的单调递增函数,比如正则化项可以是模型参数向量的范数。
交叉验证分为简单交叉验证、s折交叉验证和留一交叉验证。
训练集用于训练模型,验证集用于模型的选择,测试集用于最终对学习方法的评估。一般70%数据为训练集,30%为测试集。
泛化能力
泛化能力是指由该方法学习到的模型对未知数据的预测能力,现实中多用通过测试误差来评价学习方法的泛化能力。
生成模型与判别模型
生成模型:表示了给定输入x产生输出y的生成关系。
典型:朴素贝叶斯法和隐马尔可夫模型。
判别模型:对给定的输入x,应该预测什么样的输出y。
典型:k邻近法、感知机、决策树、最大熵模型、支持向量机等。
分类问题
分类问题包括两个过程:学习和分类。在学习中,根据训练集数据训练出分类器,分类器对新的输入进行预测。
分类方法有:k邻近法、感知机、朴素贝叶斯法、决策树、决策列表、逻辑斯谛回归模型、支持向量机、提升方法、贝叶斯网络、神经网络、winnow等。
标注问题
标注问题的目标在于学习一个模型,使它能够对观测序列给出标记序列作为预测。
标注问题的输入是一个观测序列,输出是一个标记序列或状态序列。
回归问题
回归模型表示从输入变量到输出变量之间映射的函数。
回归模型的学习等价于函数拟合。
回归学习最常用的损失函数是平方损失函数。