统计学习方法概论

最新推荐文章于 2022-01-23 09:02:56 发布

evil_xue

最新推荐文章于 2022-01-23 09:02:56 发布

阅读量183

点赞数

本文链接：https://blog.csdn.net/evil_xue/article/details/88391577

版权

1.1从统计学习

1. 统计学习

统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。统计学习也成为统计机器学习。
机器学习：即统计机器学习

2. 统计学习的目的

对数据进行预测和分析

3.统计学习的方法

监督学习（supervised learning）、非监督学习（unsupervised learning）、半监督学习（semi-supervised learning）和强化学习（reinforcement learning）。
*************
统计学方法三要素：模型（model）、策略（strategy）、算法（algorithm）
***************
实现统计学习方法的步骤：
1、得到一个有限的训练数据集合；
2、确定包含所有可能的模型的假设空间，即学习模型的集合（选择可以达到目的的模型）
3、确定模型选择的准则，即学习的策略；
4、实现求解最优模型的算法，即学习的算法；
5、通过学习方法选择最优模型；
6、利用学习的最优模型对数据进行预测与分析。

1.2 监督学习

1、基本概念

输入空间、特征空间、输出空间

特征空间：每个具体的输入是一个实例（instance），通常由特征向量（feature vector）表示，这时，所有特征向量存在的空间成为特征空间（feature space）。
特征空间的每一维对应一个特征。

回归与分类问题：

输入变量X和输出变量Y有不同的类型，可以是连续的，也可以是离散的。人们根据输入、输出变量的不同类型，对预测任务给予不同的名称：

输入变量与输出变量均为连续变量的预测问题称为回归问题
输入变量与输出变量均为离散变量的预测问题称为分类问题
输入变量与输出变量均为变量序列的预测问题称为标注问题

2、联合概论分布

监督学习：假设输入与输出的随机随机变量X和Y遵循联合概率分布P（X,Y）
注意：统计学习假设数据存在一定的统计规律，x和y具有联合概率分布的假设就是监督学习关于数据的基本假设。

3、假设空间

监督学习的目的在于学习一个由输入到输出的映射，这一映射由模型来表示。模型属于由输入空间到输出空间的映射的集合，这个集合就是假设空间（hypothesis space）。

1.3 统计学习三要素

学习策略：有了模型的假设空间，统计学习接着需要考虑的是按照什么样的准则学习或选择最优的模型。这个准则即学习策略。

一、策略

1、损失函数和风险函数

预测值f(x)和真实值y间的评估：用损失函数（loss function）或代价函数（cost function）来度量预测错误的程度。损失函数L（Y,F(x)）
统计学习中常用的几种损失函数：
0-1损失函数
平方损失函数
绝对损失函数
对数损失函数

损失函数值越小，模型就越好

2、经验风险最小化与结构风险最小化

风险函数（risk function）或期望损失（expected loss）：即模型f(x)关于联合分布P(X,Y)的平均意义下的损失。
经验风险（empirical risk）或经验损失（empirical loss）：模型f(x)关于训练数据集的平均损失函数

期望风险是模型关于联合分布的期望损失，经验风险是模型关于训练样本集的平均损失。

（1）、经验风险最小化（empirical risk minimization，ERM）：
当样本数量足够大的时候，效果好
当样本数量很小时，经验风险最小化可能产生“过拟合（over-fitting）”现象。
例子：极大似然估计（maximum likelihood estimation）
（2）、结构风险最小化（structural risk minimization，ERM）：
是为了防止过拟合而提出的策略。
结构风险最小化等价于正则化项（regularization）。
结构风险在经验风险上加上表示模型复杂度的正则化项（regularizer）或惩罚项（penalty term）。
即结构风险要求经验风险和模型复杂度同时小。
例子：贝叶斯估计中的最大后验概率估计（maximum posterior probability estimation，MAP）

二、算法

算法是指学习模型的具体计算方法。统计学习基于训练数据集，根据学习策略，从假设空间中选择最优模型，最后就转换为求解最优模型，即转换为最优化问题。

1.4 模型评估与模型选择

1、训练误差与测试误差

训练误差：对判定给定的问题是不是一个容易学习的问题是有意义的，但本质上不重要。
测试误差：反映了学习方法对未知的测试数据集的预测能力，是学习中的重要概念。
泛化能力：通常将学习方法对未知数据的预测能力称为泛化能力。”

2、过拟合与模型选择

训练模型时，如果在假设空间中存在“真”模型，那么所选择的模型应该逼近真模型，即参数个数要相近。
过拟合（over-fitting）：如果一味追求提高对训练数据的预测能力，所选模型的复杂度则往往会比真模型更高，这种现象称为“过拟合”。

1.5 正则化与交叉验证

模型选择：模型复杂度合适、测试误差最小
两种常用的模型选择方法：正则化、交叉验证

1、正则化

模型选择的典型方法是正则化（regularization）.
正则化：是结构风险最小化策略的实现，实在经验风险上加一个正则化项（regularizer）或罚项（penalty term）。
正则化项一般是模型复杂度的单调递增函数。
正则化的作用是选择经验风险与模型复杂度同时较小的模型。
正则化符合奥卡姆剃刀（occam‘s razor）原理。

2、交叉验证

另一常用的模型选择方法是交叉验证（cross validation）。
如果给定的样本数据足够，进行模型选择的一种简单方法是随机地将数据集切分成三部分：训练集（training set）、验证集（validation set）和测试集（test set）。训练集用来训练模型，验证集用来模型的选择，测试集用于最终对学习方法的评估。
在学习到的不同复杂度的模型中，选择对验证集有最小预测误差的模型。

交叉验证：

（1）简单交叉验证：
数据集划分：训练集、验证集（大约7:3）
训练集在各种条件下训练模型
（2）s折交叉验证：（s-fold cross validation）
将数据集切分为s个互不相交的大小相同的子集，然后利用s-1个子集的数据训练模型，利用余下的子集测试；
对可能的s种选择重复进行；
最后选择出s次测评中平均测试误差最小的模型
（3）留一交叉验证
s折交叉验证的特殊情形是s=n，称为留一交叉验证（leave-one-out cross validation）；
往往在数据缺乏的情况下使用。
n是给定的数据集的容量

1.6 泛化能力

1、泛化误差：

泛化能力一般通过测试集的误差来判定，但该种方法依赖数据集。
泛化误差：如果学到的模型为f，那么用这个模型对未知数据预测的误差即为泛化误差（generalization error），实际上，泛化误差就是所学习到的模型的期望风险。

2、泛化误差上界：

泛化误差上界：通常都是研究泛化误差的概率上界进行的，简称泛化误差上界（generalization error bound）。

1.7 生成模型与判别模型

监督学习方法可以分为生成方法（generative approach）和判别方法（discrimination approach），生成的模型分别为生成模型（generative model）和判别模型（discrimination model）。
生成方法：由数据学习联合分布概率p（x，y），然后求出条件概率分布p（y|x），作为预测模型，即生成模型：
p（y|x）=p（x，y）/p（x）
生成方法典型模型包括：朴素贝叶斯法和隐马尔可夫模型
判别方法：由数据直接学习决策函数f(x)或者条件概率分布p(y|x)作为预测模型，即判别模型。
判别模型主要包括：k近邻法、感知机、决策树、逻辑斯蒂回归模型、最大熵模型、支持向量机、提升方法和条件随机场。

1.8 分类问题

在监督学习中，当输出变量Y取有限个离散值时，预测问题便成为分类问题。
评价分类器性能的指标一般是分类准确率（accuracy）
对于二分类问题常用的评价标准是精确率（precision）与召回率（recall），通常以关注的类为正类，其他类为负类：
TP：将正类预测为正类数
FN：将正类预测为负类数
FP：将负类预测为正类数
TN：将负类预测为负类数
精确率：P=TP/(TP+FP)
召回率：R=TP/（TP+FN）
F1值：是精确率与召回率的调和均值
F1=2*TP/(2TP+FP+FN)
精确率和召回率都高时，F1值也会高。