第一章统计学习方法概论

最新推荐文章于 2021-04-19 09:37:59 发布

lbf-523

最新推荐文章于 2021-04-19 09:37:59 发布

阅读量215

点赞数

分类专栏：统计学习方法文章标签：统计学习方法李航

本文链接：https://blog.csdn.net/u012740100/article/details/80867497

版权

统计学习方法专栏收录该内容

5 篇文章 0 订阅

订阅专栏

第一章统计学习方法概论

第一章统计学习方法概论

1.1统计学习

特点： 统计学习（statistical learning）是关于计算机基于数据构建概率统计模型并应用模型对数据进行预测与分析的一门学科。统计学习也称为统计机器学习（statistical machine learning）。

主要特点：

统计学习以计算机及网络为平台；
统计学习以数据为研究对象，是数据驱动的学科；
统计学习的目的是对数据进行预测与分析；
统计学习以方法为中心，构建模型并应用模型进行预测与分析；
统计学习是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科。

“如果一个系统能够通过执行某个过程改进它的性能，这就是学习”—— Herbert A. Simon

对象： 统计学习的对象是数据（data）。

统计学习的前提：统计学习关于数据的基本假设是同类数据具有一定的统计规律。

在统计学习过程中，以变量或变量组表示数据。数据类型：连续变量和离散变量。

目的： 统计学习通过构建概率统计模型（方法）对数据进行预测与分析（目的）。

方法： 由监督学习（supervised learning）、非监督学习（unsupervised learning）、半监督学习（semi-supervised learning）和强化学习（reinforcement learning）等组成。

监督学习（supervised learning）方法:

从给定的、有限的、用于学习的训练数据（training data）集合出发，假设数据是独立同分布产生的；并假设要学习的模型属于某个函数的集合，称为假设空间（hypothesis space）。应用某个评价准则（evaluation criterion），从假设空间中选取一个最优的模型，使它对已知训练数据及未知的测试数据（test data）在给定的评价准则下有最优的预测；最优模型的选取由算法实现。

监督学习方法主要包括：分类、标注与回归问题的方法。

实现步骤：

得到一个有限的训练数据集合；
确定包含所有可能的模型的假设空间，即学习模型的集合；
确定模型选择的准则，即学习的策略；
实现求解最优模型的算法，即学习的算法；
通过学习方法选择最优模型；
利用学习的最优模型对新数据进行预测与分析。

研究： 方法、理论、应用

重要性：

统计学习是处理海量数据的有效方法；
统计学习是计算机智能化的的有效手段；
统计学习是计算机科学发展的一个重要组成部分。

1.2 监督学习

1.2.1 基本概念

在监督学习中，将输入与输出所有可能取值的集合分别称为 输入空间（input space）与输出空间（output space）。通常 output space < input space。
每个具体的输入是一个实例（instance），通常由特征向量（feature vector）表示。

所有特征向量存在的空间称为特征空间（feature space）。

输入实例 $x$ 的特征向量记作

x = {(x^{(1)}, x^{(2)}, . . ., x^{(i)}, . . ., x^{(n)})}^{T}

$x={(x^{(1)},x^{(2)},...,x^{(i)},...,x^{(n)})}^T$
用

xi x i $x_i$ 表示多个输入变量中的第

i i $i$ 个：

x_{i} = {(x_{i}^{(1)}, x_{i}^{(2)}, . . ., x_{i}^{(n)})}^{T}

$x_i={(x_i^{(1)},x_i^{(2)},...,x_i^{(n)})}^T$
监督学习从训练数据（training data）集合中学习模型，对测试数据进行预测（test data）。训练数据由输入（或特征向量）与输出对组成，训练集通常表示为：

T = {(x 1, y 1), (x 2, y 2), . . ., (x N, y N)}

$T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$
输入与输出对又称为样本（sample）或样本点。

根据输入、输出变量的不同类型，对预测任务给予不同的名称：

回归问题（regression）：输入变量与输出变量均为连续变量的预测问题；
分类问题（classification）：输出变量为有限个离散变量的预测问题；
标注问题（tagging）：输入变量与输出变量均为变量序列的预测问题。

对于二分类：

TP — 将正类预测为正类数；FN — 将正类预测为负类数；

FP — 将负类预测为正类数；TN — 将负类预测为负类数；

精确率（precision）： $P=\frac{TP}{TP+FP}$

召回率（recall）： $P=\frac{TP}{TP+FN}$

监督学习假设输入与输出的随机变量 $X$ 和 $Y$ 遵循联合概率分布 (joint probability distribution) $P(X,Y)$ ——关于数据的基本假设。

训练数据与测试数据被看作是依联合概率分布 $P(X,Y)$ 独立同分布产生的。

假设空间(hypothesis space)：监督学习的目的在于由输入到输出的映射，这一映射由模型来表示。模型属于由输入空间到输出空间的映射的集合。

监督学习的模型可以使概率模型或非概率模型，由条件概率分布 $P(Y|X)$ 或决策函数（decision function） $Y=f(X)$ 表示。对具体的输入进行相应的输出预测时，写作 $P(y|x)$ 或 $y=f(x)$ 。

1.2.2 问题的形式化

问题的形式化.png

1.3 统计学习三要素

1.3.1 模型

模型：所要学习的条件概率分布或决策函数。

模型的假设空间：包含所有可能的条件概率分布或决策函数。

假设空间 $\mathcal{F}$ 、参数空间（parameter space） $\theta$ 。

1.3.2 策略

1.3.2.1 损失函数和风险函数

损失函数度量模型一次预测的好坏，风险函数度量平均意义下模型预测的好坏。

用损失函数（loss function）或代价函数（cost function）来度量预测错误的程度。损失函数是 $f(X)$ 和 $Y$ 的非负实值函数，记作 $L(Y,f(X))$ .

损失函数：
1. 0-1损失函数（0-1 loss function）:

$L (Y, f (X)) = {1, Y \neq f (X) 2, Y = f (X)$ $L(Y,f(X))= \left \{ \begin{array}{rl} 1, \qquad Y \neq f(X) \\ 2, \qquad Y = f(X) \end{array} \right.$
2. 平方损失函数（quadratic loss function）：
$L (Y, f (X)) = (Y - f (X)) 2$ $L(Y,f(X))=(Y-f(X))^2$
3. 绝对损失函数（absolute loss function）：
$L (Y, f (X)) = | Y - f (X) |$ $L(Y,f(X))=|Y-f(X)|$
4. 对数损失函数（logarithmic loss function）或对数似然损失函数（log-likelihood loss function）：
$L (Y, P (Y | X) = - l o g P (Y | X)$ $L(Y,P(Y|X)=-logP(Y|X)$
损失函数值越小，模型就越好。损失函数的期望是：
$R e x p (f) = E p [L (Y, f (X))] = \int X \times Y L (y, f (x)) P (x, y) d x$ $R_{exp}(f)=E_p[L(Y,f(X))]=\int_{\mathcal{X}×\mathcal{Y}}L(y,f(x))P(x,y) \mathrm{d}x$
称为风险函数（risk function）或期望损失（expected loss）。
模型 $f(X)$ 关于训练数据集的平均损失称为经验风险（empirical risk）或经验损失（empirical loss），记作 $R_{emp}$ :
$R e m p = 1 N \sum i = 1 N L (y i, f (x i))$ $R_{emp}=\frac{1}{N}\displaystyle\sum_{i=1}^N L(y_i,f(x_i))$
期望风险 $R_{exp}(f)$ 是模型关于联合分布的期望损失，经验风险 $R_{emp}$ 是模型关于训练样本集的平均损失。
根据大数定律，当 $N$ 趋于无穷时，经验风险 $R_{emp}$ 趋于期望风险 $R_{exp}(f)$ 。
现实中训练样本数有限，要对经验风险进行一定的矫正，这就涉及到：经验风险最小化和结构风险最小化。