第1章 统计学习方法概论
1.统计学习
统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。
也可以说统计学习就是计算机系统通过运用数据及统计方提高系统性能的机器学习。故统计学习也称为统计机器学习。
统计学习的目的在于从假设空间中选取最优模型。
统计学习的对象是数据,数据分为由连续变量和离散变量表示的类型,其中同类数据是指具有某种共同性质的数据。在统计学习的过程中,以变量或者是变量组表示数据。
统计学习的方法是基于数据构建统计模型从而对数据进行预测与分析。
统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法。统计学习方法的三要素:模型、策略、算法
统计学习由监督学习(supervised learning)、非监督学习(unsupervised learning)、半监督学习(semi-supervised learning)和强化学习(reinforcement learning)等组成。
2.监督学习
监督学习的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测。
输入空间、输出空间:输入与输出所有可能取值的集合分别称为输入空间与输出空间
输入与输出空间可以是有限元素的集合,也可以是整个欧氏空间。(欧氏空间也称为欧几里得空间,可以理解为几何空间的度量在线性空间推广的结果,直白地说,欧氏空间是一个有内积的线性空间,引入内积的目的是为了能够计算两点间的距离和夹角)
每个具体的输入是一个实例,通常由特征向量表示。特征向量存在的空间称为特征空间。
训练集的表示:
测试数据由相应的输入与输出对组成,输入与输出对又称为样本或样本点。
回归问题:输入变量与输出变量均为连续变量的预测问题
分类问题:输出变量为有限个离散变量的预测问题
标注问题:输入变量与输出变量均为变量序列的预测问题
联合概率分布中,P(X,Y)表示分布函数或分布密度函数。
监督学习的目的在于学习一个由输入到输出的映射,映射由模型来表示,监督学习的模型可以是概率模型或非概率模型,由条件概率分布P(Y|X)或决策函数Y=f(X)表示
非概率模型:由决策函数表示的模型
概率模型:由条件概率表示的模型
监督学习分为学习和预测两个过程,监督学习之所以称为监督学习是因为监督学习利用训练数据集学习一个模型,再用模型对测试样本集进行预测,在这个过程中需要训练数据集,而训练数据集大多数时候又是人工给出的。
3.统计学习三要素
上面说到统计学习方法都是由模型、策略和算法构成的,所以三要素可以简单的表示为以下形式:
方法=模型+策略+算法
损失函数:损失函数度量模型一次预测的好坏
风险函数:风险函数度量平均意义下模型预测的好坏
损失函数可以有以下几种:
①0-1损失函数
②平方损失函数
③绝对损失函数
④对数损失函数
损失函数的期望
损失函数值越小,模型就越好,学习的目标就是选择期望风险最小的模型。
监督学习的两个基本策略:经验风险最小化和结构风险最小化
经验风险或经验损失:模型f(X)关于训练数据集的平均损失
经验风险最小的模型是最优的模型,当样本容量足够大时,经验风险最小化能保证有很好的学习效果;当样本容量很小时,会产生“过拟合”现象。
结构风险最小化是为了防止过拟合而提出来的策略。
4.模型评估与模型选择
当损失函数给定时,基于损失函数的模型的训练误差和模型的测试误差成为学习方法评估的标准。
测试误差反映了学习方法对未知的测试数据集的预测能力。测试误差越小的方法具有更好的预测能力。我们将学习方法对未知数据的预测能力称之为泛化能力。
模型选择时,如果在假设空间中存在“真”模型,那么所选择的模型应该逼近真模型。
过拟合:如果一味的追求提高对训练数据的预测能力,所选的模型的复杂度则往往会比真模型更高,这种现象称之为过拟合。
过拟合具体的说是指学习时选择的模型所包含的参数过多,以致于出现这一模型对已知数据预测得很好,但是对于未知数据预测得很差的现象。
模型选择时,不仅要考虑对已知数据的预测能力,而且还要考虑对未知数据的预测能力。
两种常用的模型选择方法发:正则化与交叉验证
进行模型选择时的一种简单方法是,随机地将数据集切分为三部分:训练集、验证集、测试集。
5.正则化与交叉验证
正则化:结构风险最小化策略的实现,是在经验风险上加一个正则化项或者罚项。
正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。
交叉验证:重复地使用数据,把给定的数据进行切分,将切分的数据集组合为训练集与测试集,在此基础上反复地进行训练、测试以及模型选择。
交叉验证可以细分为:简单交叉验证、S折交叉验证、留一交叉验证
6.泛化能力
泛化能力是指:由该方法学习到的模型对未知数据的预测能力。
泛化误差:用一个模型对未知数据预测的误差。
泛化误差反映了学习方法的泛化能力。
泛化误差上界:泛化能力分析往往是通过研究泛化误差的概率上界进行的。当样本容量增加时,泛化上界趋于0。
训练误差小的模型,泛化误差也会小。
7.生成模型与判别模型
监督学习方法又可以分为生成方法和判别方法。
生成方法:由数据学习联合概率分布P(X,Y),然后求出条件概率分布作为预测的模型。
判别方法:由数据直接学习决策函数或者条件概率分布作为预测的模型
8.分类问题
分类问题:在监督学习中,当输出变量Y取有限个离散值时,预测问题便成为分类问题
分类器:监督学习从数据中学习一个分类模型或分类决策函数
分类:分类器对新的输入进行输出的预测
分类问题包括学习和分类两个过程。
评价分类器性能的指标一般是分类准确率,对于二类分类问题常用的评价指标是精确率与召回率
9.标注问题
标注问题的目标子啊与学习一个模型,使它能够对观测序列给出标记序列作为预测。
标注问题分为学习和标注两个过程
评价标注模型的指标有标注准确率、精确率、召回率
10.回归问题
回归用于预测输入变量与输出变量之间的关系。
回归模型是表示从输入变量到输出变量之间映射的函数。
回归问题可以分为学习和预测两个过程。按照输入变量的个数,分为一元回归和多元回归;按照输入变量和输出变量之间关系的类型即模型的类型,分为线性回归和非线性回归。
本章概要