参考统计学习方法(李航)https://max.book118.com/html/2017/0712/121961295.shtm
算法工程师测试题点击打开链接
统计学习主要方法:
感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与最大熵模型、支持向量机、提升方法、EM算法、隐马尔科夫模型和条件随机场等。
1.1 统计学习
1.1.1 概念:统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。统计学习也称为统计机器学习。
1.1.2 统计学习的特点:
(1)以计算机及网络为平台,是建立在计算机及网络之上的;
(2)以数据为研究对象,是数据驱动的学科;
(3)目的是对数据进行预测与分析;
(4)以方法为中心,统计学习方法构建模型并应用模型进行预测与分析;
(5)是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科。
1.1.3 统计学习的对象
统计学习的对象是数据,它从数据出发、提取数据的特征、抽象数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。
统计学习关于数据的基本假设:同类数据具有一定的统计规律性,这是统计学习的前提。
1.1.4 统计学习的目的
用于对数据进行预测与分析,特别是对未知数据进行预测与分析。
1.1.5 统计学习的方法
统计学习由监督学习、非监督学习、半监督学习和强化学习等组成。本书主要讨论监督学习。
统计学习方法的三要素:模型、策略和算法。
实现统计学习方法的步骤如下:
(1)得到一个有限的训练数据集合;
(2)确定包含所有可能的模型的假设空间,即学习模型的集合;
(3)确定模型选择的准则,及学习的策略;
(4)实现求解最优模型的算法,即学习的算法;
(5)通过学习方法选择最优模型;
(6)利用学习的最优模型对新数据进行预测或分析。
1.2 监督学习
监督学习的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测(这里的输入、输出是指某个系统的输入与输出,与学习的输入、输出不同)
1.2.1 基本概念
1.2.1.1 输入、输出空间:将输入与输出所有可能取值的集合分别称为输入空间与输出空间。
1.2.1.2 特征空间:每个具体的输入是一个实例,通常由特征向量表示。这时,所有特征向量存在的空间称为特征空间。
监督学习从训练数据集合中学习模型,对测试数据进行预测,训练数据由输入与输出对组成。(输入与输出对又称为样本或样本点)
输入、输出变量用大写字母表示,习惯上输入变量写作 X,输出变量写作 Y,输入、输出变量所取的值用小写 x,y表示。变量可以是标量或向量。
人们根据输入、输出变量的不同类型,对预测任务给予不同的名称:
1.2.1.3 回归问题:输入变量与输出变量均为连续变量的预测问题
1.2.1.4 分类问题:输出变量为有限个离散变量的预测问题
1.2.1.5 标注问题:输入变量与输出变量均为变量序列的预测问题
1.2.1.6 联合概率分布:监督学习假设输入、输出的随机变量 X、Y 遵循联合概率分布 P(X,Y),P(X,Y)表示分布函数,或分布密度函数。
1.2.1.7 假设空间:监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示。换句话说,学习的目的就在于找到最好的这样的模型。模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间。假设空间的确定意味着学习范围的确定。
监督学习的模型可以是概率模型或非概率模型,由条件概率分布 P(Y|X)或决策函数 Y=f(X)表示,随具体学习方法而定。
1.2.2 问题的形式化
监督学习利用训练数据集学习一个模型,再用模型对测试样本集进行预测。监督学习分为学习和预测两个过程,由学习系统与预测系统完成。
1.3 统计学习三要素
方法 = 模型 + 策略 + 算法
1.3.1 模型
统计学习首要考虑的问题是学习什么样的模型。在监督学习过程中,模型就是所要学习的条件概率分布或决策函数,模型的假设空间包含所有可能的条件概率分布或决策函数。
1.3.2 策略
有了模型的假设空间,统计学习接着需要考虑的是按照什么样的准则学习或选择最优的模型。统计学习的目标在于从假设空间中选取最优模型。
1.3.2.1 损失函数和风险函数
损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。
输出的预测值:f(X) 真实值:Y
损失函数(代价函数):度量预测错误的程度,记为 L(Y,f(X)),函数值越小,模型越好。
常用的损失函数有:0-1损失函数、平方损失函数、绝对损失函数、对数损失函数/对数似然损失函数。
学习的目标:选择期望风险最小的模型
经验风险:模型关于训练数据集的平均损失称为经验风险或经验损失,记做
1.3.2.2 经验风险最小化与结构风险最小化
经验风险最小化(ERM)的策略认为:经验风险最小的模型是最优的模型;
(比如极大似然估计就是其一个例子)
但是,当样本容量很小时,经验风险最小化学习的效果就未必很好,会产生“过拟合”现象。
结构风险最小化(SRM):为了防止过拟合而提出来的策略,结构风险最小化等价于正则化
结构风险 = 经验风险 + 正则化项/罚项
其中为模型的复杂度,是定义在假设空间 F上的泛函,模型 f 越复杂,其值越大;是系数,用于权衡经验风险和模型复杂度,结构风险最小化策略就是求上面最小的
1.3.3 算法
算法是指学习模型的具体计算方法。最后考虑需要用什么样的计算方法求解最优模型。
1.4 模型评估与模型选择
1.4.1 训练误差与测量误差
训练误差:是模型关于训练数据集的平均损失
测量误差:是模型关于测试数据集的平均损失
1.4.2 过拟合与模型选择
当假设空间含有不同复杂度的模型时,就要面临模型选择的问题。
过拟合:如果一味追求提高对训练数据的预测能力,所选模型的复杂度则往往会比真模型更高,这种现象称为过拟合。指学习时选择的模型所包含的参数过多,以致于出现对一直数据预测得很好,但对位置数据预测得很差的现象。
1.5 正则化与交叉验证
1.5.1 正则化
模型选择的典型方法是正则化,是结构风险最小化策略的实现,是在经验风险上加一个正则化项。
1.5.2 交叉验证
另一种常用的模型选择方法,基本思想是重复地使用数据,把给定的数据进行切分,将切分的数据集组合为训练集与测试集,在此基础上反复地进行训练、测试以及模型选择。
1.5.2.1 简单交叉验证
70%数据作为训练集+30%数据为测试集,然后用训练集在各种条件下训练模型,从而得到不同的模型
1.5.2.2 S折交叉验证
应用最多,随机将已给数据切分 S 个子集,然后利用 S-1 个子集的数据训练模型,利用余下的子集测试模型;将这一过程可能的S种选择重复进行,最后选出 S 次评测中平均测评误差最小的模型。
1.5.2.3 留一交叉验证
是 S 折交叉验证的特殊情形,S=N,这里 N 是给定数据集的容量。
1.6 泛化能力
1.6.1 泛化误差
泛化能力:指由该方法学习到的模型对未知数据的预测能力。
泛化误差:用学到的模型对未知数据预测的误差,反映了学习方法的泛化能力。事实上,泛化误差就是所学习到的模型的期望风险。
1.6.2 泛化误差上界
泛化误差上界:学习方法的泛化能力往往是通过研究泛化误差的概率上界进行的,简称泛化误差上界。
1.7 生成模型与判别模型
监督学习方法又可以分为生成方法和判别方法,其所学到的模型对应分别称为生成模型与判别模型。
生成模型:生成方法由数据学习联合概率分布 P(X,Y),然后求出条件概率分布 P(Y|X)作为预测的模型,即生成模型
典型的生成模型有:朴素贝叶斯法和隐马尔可夫模型。
判别模型:判别方法由数据直接学习决策函数 f(X)或者条件概率分布 P(Y|X)作为预测的模型,即判别模型。
典型的判别模式:k近邻法、感知机、决策树、逻辑斯谛回归模型等。
1.8 分类问题
分类是监督学习的一个核心问题,在监督学习中,当输出变量 Y 取有限个离散值时,预测问题便成为分类问题。这时,输入变量 X 可以是离散的,也可以是连续的。
监督学习从数据中学习一个分类模型或分类决策函数,称为分类器;分类器对新的输入进行输出的预测,称为分类;可能的输出称为类;分类的类别为多个时,称为多类问题。
分类问题包括学习和分类两个过程。在学习过程中,根据已知的训练数据集利用有效的学习方法学习一个分类器;在分类过程中,利用学习的分类器对新的输入实例进行分类。
分类准确率:是评价分类器性能的指标,定义:对于给定的测试数据集,分类器正确分类的样本数与总样本数之比,也就是损失函数是 0-1 损失时测试数据集上的准确率。
对于二类分类问题常用的评价指标是准确率与召回率,通常以关注的类为正类,其他类为负类。
1.9 标注问题
标注也是一个监督学习问题,可以认为标注问题是分类问题的一个推广,标注问题又是更复杂的结构预测问题的简单形式。标注问题的目标在于学习一个模型,使它能够对观测序列给出标记序列作为预测。
标注问题分为标注和学习两个过程。评价标注模型的指标与评价分类模型的指标一样。标注问题在信息提取、自然语言处理领域被广泛应用。
1.10 回归问题
回归是监督学习的另一个重要问题,回归用于预测输入变量和输出变量之间的关系。回归模型正是表示从输入变量到输出变量之间映射的函数,回归问题的学习等价于函数拟合:选择一条函数曲线使其很好地拟合已给数据且很好地预测未知数据。
回归问题按照输入变量的个数,分为一元回归和多元回归;按照输入变量和输出变量之间关系的类型即模型的类型,分为线性回归和非线性回归。
回归学习最常用的损失函数是平方损失函数,在此情况下,回归问题可以由著名的最小二乘法求解。