《统计学习方法》学习笔记1——统计学习方法概论

最新推荐文章于 2022-04-03 11:32:41 发布

007djx

最新推荐文章于 2022-04-03 11:32:41 发布

阅读量395

点赞数

本文链接：https://blog.csdn.net/qq_22791959/article/details/92800087

版权

一.基本概念

1.统计学习：统计学习是利用计算机并基于数据构建概论统计模型并利用模型对数据进行预测和分析的一门学科。又称为“统计机器学习（statistical machine learning）”

2.统计学习的特点：（1）统计学习以计算机和网络为平台（2）统计学习以数据为研究对象（3）统计学习的目的是利用模型对数据进行预测和分析。（4）统计学习以方法为中心，统计学习方法构建模型并利用模型对数据进行预测和分析。（5）统计学习是多学科共同交叉的学科。

3.统计学习的方法：监督学习（supervised learning）、非监督学习(unsupervised learning)、半监督学习(semi-seupervised learning)、强化学习(reinforcement learning)。

4、统计学习实现步骤：（1）得到一个有限的训练数据集合。（2）确定包含所有可能的模型的假设空间，即学习模型的集合。（3）确定模型选择的准则，即学习策略。（4）实现求解最优模型的算法，即学习的算法。（5）通过学习方法选择最优模型。（6）利用学习的最优模型对新数据进行预测或分析。

5、输入空间和输出空间：在监督学习中，将所有可能的输入所组成的空间称为输入空间，将所有可能的输出所组成的空间称为输出空间。

6、特征空间：每个具体的输入是一个实例，通常由特征向量表示，将特征向量组成的空间称为特征空间。

7、联合概率分布：监督学习假设输入与输出的随机变量X和Y遵循联合概率分布 P(X,Y) 。在学习过程中，假定这一联合概率存在，但对于学习系统，它是未知的。训练数据和测试数据被看做是依联合概率分布 P(X,Y) 独立同分布产生的。统计学习假设数据存在一定的统计规律，和具有联合概率分布的假设就是监督学习关于数据的基本假设。

8、假设空间：监督学习的目的在于学习一个由输入到输出的映射，这一映射由模型来表示。换句话说，学习的目的就是找到最好的模型。模型属于由输入空间到输出空间的映射的结合。这个集合就是假设空间（hypothesis space）。

9、监督学习的模型：监督学习的模型可以是概率模型和非概率模型，由条件概率分布 $P(Y\left | X)$ 或决策函数（decision function） Y=f(X) 表示。

二、统计学习三要素

统计学习由模型、策略和算法构成。

1、模型

在监督学习过程中，模型就是所要学习的条件概率分布或决策函数。模型的假设空间包含了所有可能的条件概率分布或决策函数。假设空间中的模型一般有无数多个。假设空间用 $\chi$ 来表示。那么假设空间可以定义为决策函数的集合： $\chi =\left \{ f|Y=f(x) \right \}$ 。其中，X和Y是定义在输入空间和输出空间上的变量。这时假设空间 $\chi$ 通常是由一个参数向量决定的函数族： $\chi =\left \{ f|Y=f_{ \theta }(X),\theta ∈R^{n} \right \}$ ∈ $R^{n}$ }。参数向量 $\theta$ 取值于n维欧式空间 $R^{n}$ ,称为参数空间。

假设空间也可以定义为条件概率的集合： $\chi =\left \{ P|P\left ( Y|X \right ) \right \}$ ，其中，X和Y是定义在输入空间和输出空间上的随机变量，这时假设空间 $\chi$ 通常是由一个参数向量决定的条件概率分布族： $\chi =\left \{ P|P_{\theta }\left ( Y|X \right ),\theta$ ∈ $R^{n}$ }。

2、策略

有了模型的假设空间，统计学习接下来需要考虑的是按照什么样的准则去学习或选择最优的模型。统计学习的目标在于从假设空间中选取最优模型。

首先需要明白损失函数与风险函数的概念。损失函数度量模型一次预测的好坏，风险函数度量平均意义下模型预测的好坏。

损失函数的值越小，模型就越好。由于模型的输入、输出（X,Y）是随机变量，遵循联合分布P(X,Y)，所以损失函数的期望是：

$R_{exp}\left ( f \right )=E_{p}\left [ L(Y,f(X)) \right ] =\int_{\chi \ast \gamma }L(y,f(x)P(x,y)dxdy$

这是理论上模型f(X)关于联合分布P(X,Y)的平均意义下的损失，称为风险函数(risk function)或期望损失(expected loss)。学习的目的就是选择期望风险最小的模型。

给定一个训练集 $T=\left \{ \left ( x_{1},y_{1} \right ), \left ( x_{2},y_{2} \right ),......\left ( x_{n},y_{n} \right ),\right \}$ ，模型f(X)关于训练集的平均损失称为经验风险（empirical risk）或经验损失（expirical loss），记做 $R_{emp}$ : $R_{emp}\left ( f \right )=\frac{1}{N}\sum_{I=1}^{N}L\left ( y_{i},f\left ( x_{i} \right ) \right )$ 。期望风险是模型关于联合分布的期望损失，经验风险是模型关于训练样本集的平均损失。