统计学习方法第一章

最新推荐文章于 2022-04-03 11:32:41 发布

a97155787

最新推荐文章于 2022-04-03 11:32:41 发布

阅读量90

点赞数

分类专栏：统计学习方法

本文链接：https://blog.csdn.net/a97155787/article/details/118881244

版权

统计学习方法专栏收录该内容

5 篇文章 0 订阅

订阅专栏

统计学习方法

监督学习

注意 $x^{(i)}$ 和 $x_{i}$ 不同
- $X$ 表示输入变量
- $Y$ 为输出变量
- $x$ 表示输入变量的取值
- $y$ 表示输出变量的取值
- $x^{(i)}$ 表示输入 $x$ 的第 $i$ 个特征
- $x_{i}$ 表示多个输入变量 $x$ 的第 $i$ 个变量
- $x_{i}=(x_{i}^{(1)},x_{i}^{(2)},\cdots,x_{i}^{(n)})^T$ 这个将 $x_{i}$ 的特征进行展开
- $\{(x_{1},y_{1}),\cdots,(x_{i},y_{i}),\cdots,(x_{N},y_{N})\}$ 这个是训练数据or测试数据
假设空间是所有可能的输入到输出的映射的结合
模型可以是概率模型或者非概率模型
- 条件概率分布 $P (Y ∣ X)$
- 决策函数 $Y = f (X)$
- 具体输入进行决策的时候为小写: $P (y ∣ x)$ 和 $y = f (x)$
- 学习到的模型加帽子
  - $\hat{P}(y|x)$ 和 $y=\hat{f}(x)$
- 预测 $y_{N+1} = argmax\hat{P}(y|x_{N+1})$ 和 $y_{N+1}=\hat{f}(x_{N+1})$

无监督学习

聚类或者降维 $z_{N+1} = \underset{z}{argmax}\hat{P}(z|x_{N+1})$ 和 $z_{N+1}=\hat{g}(x_{N+1})$
概率估计 $\hat{P}(x_{N+1}|z_{N+1})$

强化学习

强化学习的马尔可夫决策过程是状态、奖励、动作序列上的随机过程，由五元组 $\langle S, A, P, r, \gamma\rangle$ 组成。
- $S$ 是有限状态（state）的集合
- $A$ 是有限动作（action）的集合
- $P$ 是状态转移概率（transition probability）函数:
  $P\left(s^{\prime} \mid s, a\right)=P\left(s_{t+1}=s^{\prime} \mid s_{t}=s, a_{t}=a\right)$
- $r$ 是奖励函数 (reward function) : $a)=E\left(r_{t+1} \mid s_{t}=s, a_{t}=a\right)$
- $\gamma$ 是衰减系数 (discount factor): $\gamma \in[0,1]$
马尔可夫决策过程具有马尔可夫性, 下一个状态只依赖于前一个状态与动作, 由状态转移概率函数 $P\left(s^{\prime} \mid s, a\right)$ 表示。
下一个奖励依赖于前一个状态与动作, 由奖励函数 $r (s, a)$ 表示。策略 $\pi$ 定义为给定状态下动作的函数 $a = f (s)$ 或者条件概率分布 $\mid s)$ 。
给定一个策略 $\pi$ , 智能系统与环境互动的行为就已确定（或者是确定性的或者是随机性的)。
价值函数（value function）或状态价值函数（state value function）定义为策略 $\pi$ 从某一个状态 $s$ 开始的长期累积奖励的数学期望:
$v_{\pi}(s)=E_{\pi}\left[r_{t+1}+\gamma r_{t+2}+\gamma^{2} r_{t+3}+\cdots \mid s_{t}=s\right]$
动作价值函数（action value function）定义为策略 $\pi$ 的从某一个状态 $s$ 和动作 $a$ 开始的长期累积奖励的数学期望:
$q_{\pi}(s, a)=E_{\pi}\left[r_{t+1}+\gamma r_{t+2}+\gamma^{2} r_{t+3}+\cdots \mid s_{t}=s, a_{t}=a\right]$
强化学习的目标就是在所有可能的策略中选出价值函数最大的策略 $\pi^{*}$ , 而在实际学习中往往从具体的策略出发, 不断优化已有策略。这里 $\gamma$ 表示未来的奖励会有衰减。
强化学习方法中有基于策略的（policy-based）、基于价值的（value-based), 这两者属于无模型的（model-free）方法, 还有有模型的（model-based）方法。
有模型的方法试图直接学习马尔可夫决策过程的模型, 包括转移概率函 $P\left(s^{\prime} \mid s, a\right)$ 和奖励函数 $r (s, a)$ 。这样可以通过模型对环境的反软进行预测，求出价值函数最大的策略 $\pi^{*}$ 。
无模型的、基于策略的方法不直接学习模型, 而是试图求解最优策略 $\pi^{*}$ , 表示为函数 $a=f^{*}(s)$ 或者是条件概率分布 $P^{*}(a \mid s)$ , 这样也能达到在环境中做出最优决策的目的。学习通常从一个具体策略开始, 通过搜索更优的策略进行。
无模型的、基于价值的方法也不直接学习模型，而是试图求解最优价值函数, 特别是最优动作价值函数 $q^{*}(s, a)$ 。这样可以间接地学到最优策略, 根据该策略在给定的状态下做出相应的动作。学习通常从一个具体价值函数开始，通过搜索更优的价值函数进行。

半监督学习

少量标注,大量未标注

主动学习

机器主动给出需要标注的标签

模型分类

概率与非概率
- 概率:条件概率分布 $P (y ∣ x)$
- 非概率:决策函数 $y = f (x)$
- 决策树、朴素贝叶斯、隐马尔可夫模型、条件随机场、概率潜在语义分析、潜在狄利克雷分配、高斯混合模型是概率模型。
- 感知机、支持向量机、k近邻、AdaBoost、k均值、潜在语义分析，以及神经网络是非概率模型。
- 逻辑斯谛回归既可看作是概率模型,又可看作是非概率模型。
- 条件概率分布 $P (y ∣ x)$ 和决策函数 $y = f (x)$ 可以相互转化
  - 条件概率分布 $P (y ∣ x)$ 最大化得到决策函数 $y = f (x)$
  - 决策函数 $y = f (x)$ 归一化得到条件概率分布 $P (y ∣ x)$
线性模型和非线性模型
- 统计学习模型, 特别是非概率模型, 可以分为线性模型（linear model）和非线性模型（non-linear model）
- 如果函数 $y = f (x)$ 或 $z = g (x)$ 是线性函数, 则称模型是线性模型, 否则称模型是非线性模型。
- 感知机、线性支持向量机、 $k$ 近邻、 $k$ 均值、潜在语义分析是线性模型。
- 核函数支持向量机、AdaBoost、神经网络是非线性模型。
- 深度学习（deep learning）实际是复杂神经网络的学习, 也就是复杂的非线性模型的学习。
参数化模型与非参数化模型
- 统计学习模型又可以分为参数化模型(parametric model)和非参数化模型(non-parametric model)。
- 参数化模型假设模型参数的维度固定，模型可以由有限维参数完全刻画;
- 非参数化模型假设模型参数的维度不固定或者说无穷大，随着训练数据量的增加而不断增大。

算法分类

在线学习
- 每次一个样本,预测后学习
批量学习
- 一次接受所有数据

技巧分类

贝叶斯学习
- 后验概率:给定数据条件下模型的条件概率
- 假设随机变量 $D$ 表示数据, 随机变量 $\theta$ 表示模型参数。根据贝叶斯定理, 可以用以下公式计算后验概率 $P(\theta \mid D)$ :
  $P(\theta \mid D)=\frac{P(\theta) P(D \mid \theta)}{P(D)}$
  其中 $P(\theta)$ 是先验概率, $\mid \theta)$ 是似然函数。
  模型估计时，估计整个后验概率分布 $P(\theta \mid D)$ 。如果需要给出一个模型, 通常取后验概率最大的模型。
- 预测时, 计算数据对后验概率分布的期望值:
$\mid D)=\int P(x \mid \theta, D) P(\theta \mid D) \mathrm{d} \theta$
这里 $x$ 是新样本。
核方法
- 扩展线性模型为非线性模型
核方法技巧:不显式地定义从输入空间(低维)到特征空间(高维)的映射,简化计算,同样效果
- 假设 $x_{1}$ 和 $x_{2}$ 是输入空间的任意两个实例（向量), 其内积是 $\left\langle x_{1}, x_{2}\right\rangle$ 。假设从输入空间到特征空间的映射是 $\varphi$ , 于是 $x_{1}$ 和 $x_{2}$ 在特征空间的映像是 $\varphi\left(x_{1}\right)$ 和 $\varphi\left(x_{2}\right)$ , 其内积是 $\left\langle\varphi\left(x_{1}\right),\varphi\left(x_{2}\right)\right\rangle$ 核方法直接在输入空间中定义核函数 $K\left(x_{1}, x_{2}\right)$ , 使其满足
  $K\left(x_{1}, x_{2}\right)=\left\langle\varphi\left(x_{1}\right), \varphi\left(x_{2}\right)\right\rangle$

统计学习方法三要素

模型
- 要学习的条件概率分布或者决策方法
策略
- 四种常用损失函数
  1. $0 - 1$ 损失函数 (0-1 loss function)
    $\begin{cases}1, & Y \neq f(X) \\ 0, & Y=f(X)\end{cases}$
  2. 平方损失函数 (quadratic loss function)
    
    $L(Y, f(X))=(Y-f(X))^{2}$
  3. 绝对损失函数（absolute loss function)
    
    $L (Y, f (X)) = ∣ Y - f (X) ∣$
  4. 对数损失函数（logarithmic loss function）或对数似然损失函数 (log-likelihood
    loss function )
    $\mid X))=-\log P(Y \mid X)$
- 风险
  - 经验风险
    
    模型关于训练数据集的平均损失
  - 期望风险
    
    模型关于联合分布的期望损失
  - 结构风险
    
    即正则化，减少模型复杂度，减少过拟合的风险
算法
- 学习模型的具体巨酸方法
- 最优化方法

常用模型选择方法

正则化
交叉验证
- 简单交叉
- K折（书中称之为S折）
- 留一（数据缺乏的时候）

泛化能力

泛化误差
- 如果学到的模型是 $\hat{f}$ , 那么用这个模型对未知数据预测的误差即为泛化误差 (generalization error)：
  $\begin{aligned} R_{\exp }(\hat{f}) &=E_{P}[L(Y, \hat{f}(X))] \\ &=\int_{\mathcal{X} \times \mathcal{Y}} L(y, \hat{f}(x)) P(x, y) \mathrm{d} x \mathrm{~d} y \end{aligned}$
分化误差上界（假设空间为有限个函数）（证明见书）
- 对二类分类问题，当假设空间是有限个函数的集合 $\mathcal{F}=\left\{f_{1}, f_{2}, \cdots, f_{d}\right\}$ 时, 对任意一个函数 $\in \mathcal{F}$ , 至少以概率 $1-\delta, 0<\delta<1$ , 以下
  不等式成立:
  $\leqslant \hat{R}(f)+\varepsilon(d, N, \delta)$
  其中,
  $\varepsilon(d, N, \delta)=\sqrt{\frac{1}{2 N}\left(\log d+\log \frac{1}{\delta}\right)}$

生成模型和判别模型

判别模型是直接基于后验条件概率进行建模
判别方法由数据直接学习决策函数 $f (X)$ 或者条件概率分布 $\mid X)$ 作为预测的模型, 即判别模型。判别方法关心的是对给定的输入 $X$ , 应该预测什么样的输出 $Y$ 。
生成模型是对联合分布进行建模
生成方法可以还原出联合概率分布 $P (X, Y)$

分类问题的各种评价指标

$\mathrm{TP} \longrightarrow$ 将正类预测为正类数;
$\mathrm{FN} \longrightarrow$ 将正类预测为负类数;
$\mathrm{FP} \longrightarrow$ 将负类预测为正类数;
$\mathrm{TN}\longrightarrow$ 将负类预测为负类数。
精确率定义为：
$P=\frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FP}}$
召回率定义为：
$R=\frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FN}}$
$F_{1}$ 值, 精确率和召回率的调和均值, 定义为：
$\frac{2}{F_{1}}=\frac{1}{P}+\frac{1}{R}$
$F_{1}=\frac{2 \mathrm{TP}}{2 \mathrm{TP}+\mathrm{FP}+\mathrm{FN}}$
精确率和召回率都高时, $F_{1}$ 值也会高。

标注问题

对比分类问题：标注是序列

回归问题

等价于函数拟合
按照输入分为多元回归和一元回归
按照输入和输出关系分为线性回归和非线性回归
$ac{2}{F_{1}}=\frac{1}{P}+\frac{1}{R}$
$F_{1}=\frac{2 \mathrm{TP}}{2 \mathrm{TP}+\mathrm{FP}+\mathrm{FN}}$
精确率和召回率都高时, $F_{1}$ 值也会高。

标注问题

对比分类问题：标注是序列

回归问题

等价于函数拟合
按照输入分为多元回归和一元回归
按照输入和输出关系分为线性回归和非线性回归

a97155787

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
统计学习方法第一章

统计学习方法监督学习注意x(i)x^{(i)}x(i)和xix_{i}xi不同XXX表示输入变量YYY为输出变量xxx表示输入变量的取值yyy表示输出变量的取值x(i)x^{(i)}x(i)表示输入xxx的第iii个特征xix_{i}xi表示多个输入变量xxx的第iii个变量xi=(xi(1),xi(2),⋯ ,xi(n))Tx_{i}=(x_{i}^{(1)},x_{i}^{(2)},\cdots,x_{i}^{(n)})^Txi=(xi(1),xi(2),⋯,xi(n)
复制链接

扫一扫