统计机器学习（1）-统计学习方法概论

最新推荐文章于 2020-06-14 10:17:08 发布

foxwarze

最新推荐文章于 2020-06-14 10:17:08 发布

阅读量506

点赞数 1

分类专栏：机器学习文章标签：机器学习数据数学

本文链接：https://blog.csdn.net/u012504001/article/details/45401137

版权

机器学习专栏收录该内容

0 篇文章 0 订阅

订阅专栏

笔记来源于《统计学习方法》——李航著

统计机器学习（1）-统计学习方法概论

1.1统计学习

统计学习的对象是data，从数据出发，提取数据的特征，抽象出数学模型，发现数据中的知识，又回到对数据的分析和预测中去。

统计学习由监督学习，非监督学习，半监督学习和强化学习等组成。

监督学习：从给定的，有限的，用于学习的训练数据（training data）集合出发，假设数据独立同分布；并且假设要学习的模型属于某个函数的集合，称为假设空间（hypothesis space），应用于某个评价准则（evaluation criterion），从假设空间中选择一个最优的模型使得它対已知训练数据以及未知测试数据在给定的评价标准下有最优的预测；最优模型的选取由算法实现，这样，统计学习包括模型的假设空间，模型选择的准则以及模型学习的算法，称为统计学习的三要素

model	strategy	algorithm
模型	策略	算法

1. 得到一个有限的训练数据的集合
2. 确定包含所有可能的模型的假设空间
3. 确定模型选择的准则（strategy）
4. 实现求解最优模型的算法（algorithm）
5. 通过学习方法选择最优模型
6. 利用学习的最优模型对新数据预测或分析

1.2监督学习

Input Space：输入的所有可能值得集合

Output Space：输出地所有可能值得集合

每个具体的输入是一个实例（instance），通常由特征向量（feature vector）表示。

输入实例x的特征向量

x = (x (1), x (2), x (3), \dots, x (n)) T

$x=(x^{(1)},x^{(2)},x^{(3)},\dots,x^{(n)})^{T}$

x i = (x (1) i, x (2) i, \dots, x (n) i) T

$x_i=(x_i^{(1)},x_i^{(2)},\cdots,x_i^{(n)})^T$

T = {(x 1, y 1), \dots (x n, y n)}

$T=\lbrace (x_1,y_1),\cdots (x_n,y_n)\rbrace$

输入 $x$ 和输出 $y$ 有不同的类型，可以是连续的，也可以是离散的。
if 输入变量和输出变量均连续——>回归问题

if 输出变量为有限个离散变量的预测问题——–>分类问题

if 输入变量和输出变量均为变量序列的预测问题——–>标注问题

监督学习假设输入与输出的随机变量 $X$ 和 $Y$ 服从联合概率分布 $P(X,Y)$ , $P(X,Y)$ 表示分布函数（分布密度函数）

在学习过程中，假设这一联合概率分布存在，但对学习系统来讲，联合概率分布的具体定义是未知的。

$X$ 和 $Y$ 具有联合概率分布的假设是监督学习关于数据的基本假设

监督学习的目的在于学习一个由输入到输出地映射，这一映射由模型来表示，监督学习的模型可以使概率模型或者是非概率模型，由条件概率分布 $P(Y|X)$ 或决策函数 $Y=f(X)$ 表示，对具体的输入进行相应的输出预测时，写作 $P(y|x)$ 或 $y=f(x)$ 。

条件概率分布 $\widehat{P}(Y|X)$ 或决策函数 $Y=\widehat{f}(X)$ 描述输入和输出向量之间的关系。

1.3统计学习的三要素

模型

 = {f | Y = f (x)}

$\mathcal{F}=\{f|Y=f(x)\}$

 $\mathcal{F}$ 定义为模型的假设空间，

X $X$ 和

Y $Y$ 是定义在输入空间

 $\mathcal{X}$ 和输出空间

 $\mathcal{Y}$ 上的变量，这时的

 $\mathcal{F}$
通常是一个由参数向量来决定的函数族。

 = {f | Y = f θ (x)}

$\mathcal{F}=\{f|Y=f_{\theta}(x)\}$

参数向量 $\theta$ 取值于 $n$ 维欧式空间 $R^{n}$ 称为参数空间

另外一种定义方式是：

 = {P | P (Y | X)}

$\mathcal{F}=\{P|P(Y|X)\}$

 = {P | P θ (Y | X)}

$\mathcal{F}=\{P|P_{\theta}(Y|X)\}$

策略

损失函数（loss function）：度量模型一次预测的好坏
风险函数（risk function）：度量平均意义下模型预测的好坏

0-1 loss function
$ (Y, f (X)) = {10 Y \neq f (X) Y = f (X)$ $\mathcal{L}(Y,f(X))=\left\{ \begin{aligned} &1 &Y\neq f(X)\\ &0 & Y= f(X) \\ \end{aligned} \right.$
quadratic loss function
$ (Y, f (X)) = (Y - f (X)) 2$ $\mathcal{L}(Y,f(X))=(Y-f(X))^2$
absolute loss function
$ (Y, f (X)) = | Y - f (x) |$ $\mathcal{L}(Y,f(X))=|Y-f(x)|$
logarithmic loss function
$ (Y, f (X)) = - log P (Y | X)$ $\mathcal{L}(Y,f(X))=-\log P(Y|X)$

对于loss function的期望（expectation）

R exp (f) = E p [ (Y, f (X))] = \int X \cdot Y  (y, f (x)) P (x, y) d x d y

$R_{\exp}(f)=E_p[\mathcal{L}(Y,f(X))]=\int_{X\cdot Y}\mathcal{L}(y,f(x))P(x,y)dxdy$

这是理论上模型 $f(X)$ 关于联合分布 $P(X,Y)$ 的平均意义下地损失，称为风险函数（risk function）。

学习的目标就是选择风险函数最小的模型。由于联合分布 $P(X,Y)$ 未知， $R_{\exp}(f)$ 不能直接计算，实际上，如果知道联合分布 $P(X,Y)$ 可以从联合分布直接求出条件概率分布 $P(Y|X)$ ，也就不需要学习了。

给定一个训练集

T = {(x 1, y 1), \dots, (x N, y N)}

$T=\{(x_1,y _1),\cdots,(x_N,y_N)\}$
模型

f(X) $f(X)$ 关于训练数据集的平均损失称为经验风险（empirical risk）或经验损失（empirical loss），记作

Remp $R_{emp}$ :

R e m p (f) = 1 N \sum i = 1 N  (y i, f (x i))

$R_{emp}(f)=\frac{1}{N}\sum_{i=1}^N\mathcal{L}(y_i,f(x_i))$

期望风险 $R_{\exp}(f)$ 是模型关于联合分布的期望损失，经验风险 $R_emp(f)$ 是模型关于训练样本集的平均损失。根据大数定理，当样本容量N趋于无穷时，经验风险 $R_{emp}$ 趋于 $R_{\exp}$ 。

经验风险最小化和结构风险最小化

经验风险最小化（empirical risk minimization，ERM）的策略认为，经验风险最小的模型是最优的模型。根据这一策略，按照经验风险最小化求解模型就是求解最优化问题：

min x \in R 1 N \sum i = 1 N  (y i, f (x i))

$\min_{x \in R} \frac{1}{N}\sum_{i=1}^N\mathcal{L}(y_i,f(x_i))$
其中

 $\mathcal{L}$ 是假设空间。

极大似然估计（maximum likelihood estimation）就是经验风险最小化的一个例子。当模型是条件概率分布，损失函数是对数损失函数时，经验风险最小化就等价于极大似然估计。

但是，当样本容量很小时，经验风险最小化学习的效果未必很好，会产生过拟合现象。

结构风险最小化（structural risk minimization ，SRM）是为了防止过拟合而提出来的策略。结构风险最小化等价于正则化（regularization）。在假设空间，损失函数以及训练数据集确定的情况下，结构风险的定义是：

R s r m (f) = 1 N \sum i = 1 N  (y i, f (x i)) + λ J (f)

$R_{srm}(f)=\frac{1}{N}\sum_{i=1}^N\mathcal{L}(y_i,f(x_i))+\lambda J(f)$
其中

J(f) $J(f)$ 为模型的复杂度，是定义在假设空间

 $\mathcal{F}$ 上的泛函。模型f越复杂，复杂度

J(f) $J(f)$ 就越高。结构风险小需要经验风险和模型复杂度同时小。结构风险小的模型往往对训练数据以及未知的数据都有较好的预测。

贝叶斯估计中的最大后验概率估计（maximum posterior probability estimation ，MAP）就是结构风险最小化的一个例子。当模型是条件概率分布，损失函数是对数损失函数，模型复杂度由模型的先验概率表示时，结构风险最小化就等价于最大后验估计。
同样的，等价于求解最优化问题：

$min f \in  1 N  (y i, f (x i)) + λ J (f)$ $\min_{f\in \mathcal{F}}\frac{1}{N}\mathcal{L}(y_i,f(x_i))+\lambda J(f)$

算法

由于统计学习问题归结为最优化问题，统计学习的算法称为求解最优化问题的算法。一般而言是用数值的方法求解出全局最优解。

1.4模型评估与模型选择

$for \ f \in \mathcal{F}$
train error

e t r a i n = R e m p (f) = 1 N \sum i = 1 N  (y i), f (x i)

$e_{train}=R_{emp}(f)=\frac{1}{N}\sum_{i=1}^{N}\mathcal{L(y_i),f(x_i)}$
test error

e t e s t = 1 N ' \sum i = 1 N'  (y i, f (x i))

$e_{test}=\frac{1}{N'}\sum_{i=1}^{N'}\mathcal{L}(y_i,f(x_i))$

over-fitting and the select of the model
over-fitting :select the model so complex that the train data can not give enough message to get the model( $f$ )

example: $f_M(x,w)=w_0+w_1x+\cdots+w_Mx^M=\sum_{j=0}^Mw_jx^j$
if $M>N$ :
we can know we can not solve the $w$ ,
if $0<N-M<<N$ :
the curve may over-fitting

1.5正则化和交叉验证

正则化：正则化是结构风险最小化策略的实现，是在经验风险上加一个正则化项，正则化项一般都是模型复杂度的单调递增函数；模型越复杂，正则化值就越大。

$min f \in  i = 1 N  (y i, f (x i)) + λ J (f)$ $\min_{f\in \mathcal{F}}\frac{i=1}{N}\mathcal{L}(y_i,f(x_i))+\lambda J(f)$

其中第二项就是正则化项

交叉验证是在样本数目不够的事后，可以将给定的数据切分，将切分的数据组合为训练集和测试集，在此基础上反复训练，测试以及模型选择。

1.6泛化能力

泛化误差（generalization error）：

R e x p (f) = E P [ (Y, f (X))] = \int X \times Y  (y, f (x)) P (x, y) d x d y

$R_{exp}(f)=E_P[\mathcal{L}(Y,f(X))]=\int_{X\times Y}\mathcal{L}(y,f(x))P(x,y)dxdy$

泛化误差的上界和经验风险有关
对于任意的 $\epsilon$ ,至少以概率 $1-\delta$ ，下面的不等式成立

R e x p (f) \leq R e m p (f) + ϵ (d, N, δ)

$R_{exp}(f)\leq R_{emp}(f)+\epsilon(d,N,\delta)$

其中

ϵ (d, N, δ) = 1 N (log d + log 1 δ) ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ \sqrt

$\epsilon(d,N,\delta)=\sqrt{\frac{1}{N}(\log d+\log \frac{1}{\delta})}$

proof:
reference: Hoeffding Inequality:if $S_n=\sum_{i=1}^nX_i$ ,where $X_i$ is the independent random variable;then for any $t\ge 0$ :

$P (S n - E S n \geq t) \leq exp (- 2 t 2 \sum n i = 1 ( b i - a i ))$ $P(S_n-ES_n\ge t)\le \exp(\frac{-2t^2}{\sum_{i=1}^{n}(b_i-a_i)})$
$P (E S n - S n \geq t) \leq exp (- 2 t 2 \sum n i = 1 ( b i - a i ))$ $P(ES_n-S_n\ge t)\le \exp(\frac{-2t^2}{\sum_{i=1}^{n}(b_i-a_i)})$
for any $f\in \mathcal{F}$ ， $R_{emp}(f)$ is the average of N random variable $\mathcal{L}(Y,f(X))$ ， $R_{exp}(f)$ is the expectation of random variable $\mathcal{L}(Y,f(X))$
if the value of loss function is in $[0,1]$ ,means for any $i,[a_i,b_i]=[0,1]$ ,use the Hoeffding Inequality we can get for $\epsilon\ge 0$ :
$P (R e x p (f) - R e m p (f) \geq ϵ) \leq exp (- 2 N ϵ 2)$ $P(R_{exp}(f)-R_{emp}(f)\ge \epsilon)\le \exp(-2N\epsilon^2)$
notice that $\mathcal{F}=\{f_1,f_2,\cdots,f_d\}$ is finite set，so:
$P (\exists f \in  : R e x p (f) - R e m p (f) \geq ϵ) = P (⋃ f \in  {R e x p (f) - R e m p (f) \geq ϵ} ） \leq \sum f \in  P (R e x p (f) - R e m p (f) \geq ϵ) \leq d exp (- 2 N ϵ 2)$ $P(\exists f\in \mathcal{F}:R_{exp}(f)-R_{emp}(f)\ge \epsilon)=P(\bigcup_{f\in \mathcal{F}}\{R_{exp}(f)-R_{emp}(f)\ge\epsilon\}）\le\sum_{f\in\mathcal{F}}P(R_{exp}(f)-R_{emp}(f)\ge \epsilon)\le d\exp(-2N\epsilon^2)$
or for any $f\in \mathcal{F}$ :
$P (R e x p (f) - R e m p (f) < ϵ) \geq 1 - d exp (- 2 N ϵ 2)$ $P(R_{exp}(f)-R_{emp}(f)<\epsilon)\ge 1-d\exp(-2N\epsilon^2)$
set
$δ = d exp (- 2 N ϵ 2)$ $\delta=d\exp(-2N\epsilon^2)$
so:
$P (R e x p (f) < R e m p (f) + ϵ) \geq 1 - δ$ $P(R_{exp}(f)<R_{emp}(f)+\epsilon)\ge1-\delta$
QED