【统计学习方法】统计学习概论

jyyym

已于 2022-03-05 13:47:19 修改

阅读量471

点赞数

分类专栏： ml苦手文章标签：学习

于 2022-03-04 15:34:52 首次发布

本文链接：https://blog.csdn.net/JIANGSAS/article/details/123276024

版权

ml苦手专栏收录该内容

6 篇文章 1 订阅

订阅专栏

一、什么是统计学习

统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科，统计学习亦被称之为统计机器学习（statistical machine learning）
统计学习以数据为研究对象，为数据所驱动，提取数据的特征，抽象数据的模型，其目的在于对数据特别是未知数据的预测与分析。统计学习关于数据的基本假设是：同类数据具有一定的统计规律性，这是统计学习的前提。
统计学习对数据的预测和分析是通过构建概率统计模型来实现的，统计学习由监督学习、无监督学习、强化学习三部分组成。统计学习方法可以概括如下：从给定的、有限的、用于学习的训练数据集合出发，假设数据是独立同分布产生的；并且假设要学习的模型属于某个函数的集合，称为假设空间；应用某个评价准则，从假设空间中选取一个最优模型，使它对已知的训练数据及未知的测试数据在给定的评价准则下有最优的预测；最优模型的选择由算法实现。
由上可知，统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法。这也是统计学习方法的三要素：模型（model）、策略（strategy）、算法（algorithm）。

二、统计学习方法三要素

方法=模型+策略+算法

1.模型

统计学习方法首要考虑的问题就是学习什么样的模型。在监督学习过程中，模型就是所要学习的条件概率分布或者决策函数，在模型的假设空间中，包含了所有可能的条件分布或者决策函数。

2.策略

统计学习的目标在于从假设空间中选取最优模型，而策略就是在模型的假设空间中选取最优模型的准则。
首先引入损失函数和风险函数的概念：
损失函数和风险函数：

损失函数度量模型的一次预测的好坏，风险函数度量平均意义下模型预测的好坏。风险函数就是损失函数的期望。
-\待插入公式
对于特定的训练数据集，模型关于该训练数据集的平均损失称为经验风险或者经验损失。
-\待插入公式

一般来说，根据大数定律即当样本容量趋于无穷时经验风险也趋近于期望风险，人们很自然地会想到利用经验风险估计期望风险。但由于现实条件下的样本容量有限，用经验风险估计期望风险的方法并不理想，故需要对经验风险进行一定的矫正，如经验风险最小化和结构风险最小化这两种监督学习的基本策略。
经验风险最小化和结构风险最小化：

在假设空间、损失函数和训练数据集确定的情况下，经验风险函数式可以确定，经验风险最小化的策略认为，经验风险最小的模型就是最优的模型，由这一策略，按照经验风险最小化求解最优模型就是求解最优化问题：

\待插入公式

当样本容量足够大时，经验风险最小化能够保证良好的学习效果。但当样本容量很小时，经验风险最小化会产生过拟合现象。

结构风险最小化就是为了防止过拟合现象而提出的策略，结构风险最小化等价于正则化，结构风险在经验风险上加上表示模型复杂度的正则化项或者罚项，在假设空间、损失函数以及训练数据集确定的情况下，结构风险的定义是：
\待插入公式
由上述公式可以看出，结构风险小需要经验风险和模型复杂度同时小，结构风险小的模型往往对训练数据以及未知的测试数据都有较好的预测。
结构风险最小化的策略认为结构风险最小的模型是最优的模型，故求解最优模型就是求解最优化问题： \待插入公式

3.算法

算法就是学习模型的具体计算方法，统计学习的算法就是求解最优化问题的算法。

三、生成模型与判别模型

监督学习方法又可以分为生成方法和判别方法，顾名思义，其所学到的模型又称为生成模型和判别模型。
生成方法和判别方法：

生成方法由数据学习联合概率分布P(X,Y)，然后求出条件概率分布P(Y|X)作为预测的模型，即生成模型。这样的方法之所以被称之为生成方法，是因为模型给定输入产生输出Y的生成关系。特点：生成方法可以还原概率分布，而判别方法不能，生成方法的学习收敛速度更快，即当样本容量增加的时候，学习到的模型可以更加快速的收敛于真实模型；当存在隐变量时，仍可以用生成方法学习。
判别方法由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型，即判别模型。特点：判别方法直接学习条件概率或者决策函数，直接面对预测，这样往往学习的准确率更高，由于这样的学习方法，可以对数据进行各种程度的抽象、定义特征并且使用特征，因此可以简化学习问题。