统计学习方法第一章

统计学习方法

监督学习

  • 注意 x ( i ) x^{(i)} x(i) x i x_{i} xi不同
    • X X X表示输入变量
    • Y Y Y为输出变量
    • x x x表示输入变量的取值
    • y y y表示输出变量的取值
    • x ( i ) x^{(i)} x(i)表示输入 x x x的第 i i i个特征
    • x i x_{i} xi表示多个输入变量 x x x的第 i i i个变量
    • x i = ( x i ( 1 ) , x i ( 2 ) , ⋯   , x i ( n ) ) T x_{i}=(x_{i}^{(1)},x_{i}^{(2)},\cdots,x_{i}^{(n)})^T xi=(xi(1),xi(2),,xi(n))T这个将 x i x_{i} xi的特征进行展开
    • { ( x 1 , y 1 ) , ⋯   , ( x i , y i ) , ⋯   , ( x N , y N ) } \{(x_{1},y_{1}),\cdots,(x_{i},y_{i}),\cdots,(x_{N},y_{N})\} {(x1,y1),,(xi,yi),,(xN,yN)}这个是训练数据or测试数据
  • 假设空间是所有可能的输入到输出的映射的结合
  • 模型可以是概率模型或者非概率模型
    • 条件概率分布 P ( Y ∣ X ) P(Y|X) P(YX)
    • 决策函数 Y = f ( X ) Y=f(X) Y=f(X)
    • 具体输入进行决策的时候为小写: P ( y ∣ x ) P(y|x) P(yx) y = f ( x ) y=f(x) y=f(x)
    • 学习到的模型加帽子
      • P ^ ( y ∣ x ) \hat{P}(y|x) P^(yx) y = f ^ ( x ) y=\hat{f}(x) y=f^(x)
    • 预测 y N + 1 = a r g m a x P ^ ( y ∣ x N + 1 ) y_{N+1} = argmax\hat{P}(y|x_{N+1}) yN+1=argmaxP^(yxN+1) y N + 1 = f ^ ( x N + 1 ) y_{N+1}=\hat{f}(x_{N+1}) yN+1=f^(xN+1)

无监督学习

  • 聚类或者降维 z N + 1 = a r g m a x z P ^ ( z ∣ x N + 1 ) z_{N+1} = \underset{z}{argmax}\hat{P}(z|x_{N+1}) zN+1=zargmaxP^(zxN+1) z N + 1 = g ^ ( x N + 1 ) z_{N+1}=\hat{g}(x_{N+1}) zN+1=g^(xN+1)
  • 概率估计 P ^ ( x N + 1 ∣ z N + 1 ) \hat{P}(x_{N+1}|z_{N+1}) P^(xN+1zN+1)

强化学习

  • 强化学习的马尔可夫决策过程是状态、奖励、动作序列上的随机过程,由五元组 ⟨ S , A , P , r , γ ⟩ \langle S, A, P, r, \gamma\rangle S,A,P,r,γ 组成。

    • S S S 是有限状态(state)的集合
    • A A A 是有限动作(action)的集合
    • P P P 是状态转移概率(transition probability)函数:
      P ( s ′ ∣ s , a ) = P ( s t + 1 = s ′ ∣ s t = s , a t = a ) P\left(s^{\prime} \mid s, a\right)=P\left(s_{t+1}=s^{\prime} \mid s_{t}=s, a_{t}=a\right) P(ss,a)=P(st+1=sst=s,at=a)
    • r r r 是奖励函数 (reward function) : r ( s , a ) = E ( r t + 1 ∣ s t = s , a t = a ) r(s, a)=E\left(r_{t+1} \mid s_{t}=s, a_{t}=a\right) r(s,a)=E(rt+1st=s,at=a)
    • γ \gamma γ 是衰减系数 (discount factor): γ ∈ [ 0 , 1 ] \gamma \in[0,1] γ[0,1]
  • 马尔可夫决策过程具有马尔可夫性, 下一个状态只依赖于前一个状态与动作, 由状态转移概率函数 P ( s ′ ∣ s , a ) P\left(s^{\prime} \mid s, a\right) P(ss,a) 表示。

  • 下一个奖励依赖于前一个状态与动作, 由奖励函数 r ( s , a ) r(s, a) r(s,a) 表示。策略 π \pi π 定义为给定状态下动作的函数 a = f ( s ) a=f(s) a=f(s) 或者条件概率分布 P ( a ∣ s ) P(a \mid s) P(as)

  • 给定一个策略 π \pi π, 智能系统与环境互动的行为就已确定(或者是确定性的或者是随机性的)。

  • 价值函数(value function)或状态价值函数(state value function)定义为策略 π \pi π 从某一个状态 s s s 开始的长期累积奖励的数学期望:
    v π ( s ) = E π [ r t + 1 + γ r t + 2 + γ 2 r t + 3 + ⋯ ∣ s t = s ] v_{\pi}(s)=E_{\pi}\left[r_{t+1}+\gamma r_{t+2}+\gamma^{2} r_{t+3}+\cdots \mid s_{t}=s\right] vπ(s)=Eπ[rt+1+γrt+2+γ2rt+3+st=s]

  • 动作价值函数(action value function)定义为策略 π \pi π从某一个状态 s s s 和动作 a a a 开始的长期累积奖励的数学期望:
    q π ( s , a ) = E π [ r t + 1 + γ r t + 2 + γ 2 r t + 3 + ⋯ ∣ s t = s , a t = a ] q_{\pi}(s, a)=E_{\pi}\left[r_{t+1}+\gamma r_{t+2}+\gamma^{2} r_{t+3}+\cdots \mid s_{t}=s, a_{t}=a\right] qπ(s,a)=Eπ[rt+1+γrt+2+γ2rt+3+st=s,at=a]

  • 强化学习的目标就是在所有可能的策略中选出价值函数最大的策略 π ∗ \pi^{*} π, 而在实际 学习中往往从具体的策略出发, 不断优化已有策略。这里 γ \gamma γ 表示未来的奖励会有衰减。

  • 强化学习方法中有基于策略的(policy-based)、基于价值的(value-based), 这两 者属于无模型的(model-free)方法, 还有有模型的(model-based)方法。

  • 有模型的方法试图直接学习马尔可夫决策过程的模型, 包括转移概率函 P ( s ′ ∣ s , a ) P\left(s^{\prime} \mid s, a\right) P(ss,a) 和奖励函数 r ( s , a ) r(s, a) r(s,a) 。这样可以通过模型对环境的反软进行预测,求出价值函 数最大的策略 π ∗ \pi^{*} π

  • 无模型的、基于策略的方法不直接学习模型, 而是试图求解最优策略 π ∗ \pi^{*} π, 表示为 函数 a = f ∗ ( s ) a=f^{*}(s) a=f(s) 或者是条件概率分布 P ∗ ( a ∣ s ) P^{*}(a \mid s) P(as), 这样也能达到在环境中做出最优决策的目的。学习通常从一个具体策略开始, 通过搜索更优的策略进行。

  • 无模型的、基于价值的方法也不直接学习模型,而是试图求解最优价值函数, 特 别是最优动作价值函数 q ∗ ( s , a ) q^{*}(s, a) q(s,a) 。这样可以间接地学到最优策略, 根据该策略在给定的 状态下做出相应的动作。学习通常从一个具体价值函数开始,通过搜索更优的价值函 数进行。

半监督学习

  • 少量标注,大量未标注

主动学习

  • 机器主动给出需要标注的标签

模型分类

  • 概率与非概率

    • 概率:条件概率分布 P ( y ∣ x ) P(y|x) P(yx)
    • 非概率:决策函数 y = f ( x ) y=f(x) y=f(x)
    • 决策树、朴素贝叶斯、隐马尔可夫模型、条件随机场、概率潜在语义分析、潜在狄利克雷分配、高斯混合模型是概率模型
    • 感知机、支持向量机、k近邻、AdaBoost、k均值、潜在语义分析,以及神经网络是非概率模型
    • 逻辑斯谛回归既可看作是概率模型,又可看作是非概率模型。
    • 条件概率分布 P ( y ∣ x ) P(y|x) P(yx)和决策函数 y = f ( x ) y=f(x) y=f(x) 可以相互转化
      • 条件概率分布 P ( y ∣ x ) P(y|x) P(yx)最大化得到决策函数 y = f ( x ) y=f(x) y=f(x)
      • 决策函数 y = f ( x ) y=f(x) y=f(x) 归一化得到条件概率分布 P ( y ∣ x ) P(y|x) P(yx)
  • 线性模型和非线性模型

    • 统计学习模型, 特别是非概率模型, 可以分为线性模型(linear model)和非线性模型(non-linear model)
    • 如果函数 y = f ( x ) y=f(x) y=f(x) z = g ( x ) z=g(x) z=g(x) 是线性函数, 则称模型是线性模型, 否则称模型是非线性模型。
    • 感知机、线性支持向量机、 k k k 近邻、 k k k 均值、潜在语义分析是线性模型
    • 核函数支持向量机、AdaBoost、神经网络是非线性模型
    • 深度学习(deep learning)实际是复杂神经网络的学习, 也就是复杂的非线性模型的学习。
  • 参数化模型与非参数化模型

    • 统计学习模型又可以分为参数化模型(parametric model)和非参数化模型(non-parametric model)。
    • 参数化模型假设模型参数的维度固定,模型可以由有限维参数完全刻画;
    • 非参数化模型假设模型参数的维度不固定或者说无穷大,随着训练数据量的增加而不断增大。

算法分类

  • 在线学习
    • 每次一个样本,预测后学习
  • 批量学习
    • 一次接受所有数据

技巧分类

  • 贝叶斯学习

    • 后验概率:给定数据条件下模型的条件概率

    • 假设随机变量 D D D 表示数据, 随机变量 θ \theta θ 表示模型参数。根据贝叶斯定理, 可以用 以下公式计算后验概率 P ( θ ∣ D ) P(\theta \mid D) P(θD) :
      P ( θ ∣ D ) = P ( θ ) P ( D ∣ θ ) P ( D ) P(\theta \mid D)=\frac{P(\theta) P(D \mid \theta)}{P(D)} P(θD)=P(D)P(θ)P(Dθ)
      其中 P ( θ ) P(\theta) P(θ) 是先验概率, P ( D ∣ θ ) P(D \mid \theta) P(Dθ) 是似然函数。
      模型估计时,估计整个后验概率分布 P ( θ ∣ D ) P(\theta \mid D) P(θD) 。如果需要给出一个模型, 通常取后验概率最大的模型。

    • 预测时, 计算数据对后验概率分布的期望值:

    P ( x ∣ D ) = ∫ P ( x ∣ θ , D ) P ( θ ∣ D ) d θ P(x \mid D)=\int P(x \mid \theta, D) P(\theta \mid D) \mathrm{d} \theta P(xD)=P(xθ,D)P(θD)dθ
    ​ 这里 x x x 是新样本。

    • 在这里插入图片描述
  • 核方法

    • 扩展线性模型为非线性模型
  • 核方法技巧:不显式地定义从输入空间(低维)到特征空间(高维)的映射,简化计算,同样效果

    • 假设 x 1 x_{1} x1 x 2 x_{2} x2 是输入空间的任意两个实例(向量), 其内积是 ⟨ x 1 , x 2 ⟩ \left\langle x_{1}, x_{2}\right\rangle x1,x2 。假设从输 入空间到特征空间的映射是 φ \varphi φ, 于是 x 1 x_{1} x1 x 2 x_{2} x2 在特征空间的映像是 φ ( x 1 ) \varphi\left(x_{1}\right) φ(x1) φ ( x 2 ) \varphi\left(x_{2}\right) φ(x2), 其内积是 ⟨ φ ( x 1 ) , φ ( x 2 ) ⟩ \left\langle\varphi\left(x_{1}\right),\varphi\left(x_{2}\right)\right\rangle φ(x1),φ(x2) 核方法直接在输入空间中定义核函数 K ( x 1 , x 2 ) K\left(x_{1}, x_{2}\right) K(x1,x2), 使其满足
      K ( x 1 , x 2 ) = ⟨ φ ( x 1 ) , φ ( x 2 ) ⟩ K\left(x_{1}, x_{2}\right)=\left\langle\varphi\left(x_{1}\right), \varphi\left(x_{2}\right)\right\rangle K(x1,x2)=φ(x1),φ(x2)

统计学习方法三要素

  • 模型

    • 要学习的条件概率分布或者决策方法
  • 策略

    • 四种常用损失函数

      1. 0 − 1 0-1 01 损失函数 (0-1 loss function)
        L ( Y , f ( X ) ) = { 1 , Y ≠ f ( X ) 0 , Y = f ( X ) L(Y, f(X))= \begin{cases}1, & Y \neq f(X) \\ 0, & Y=f(X)\end{cases} L(Y,f(X))={1,0,Y=f(X)Y=f(X)

      2. 平方损失函数 (quadratic loss function)

        L ( Y , f ( X ) ) = ( Y − f ( X ) ) 2 L(Y, f(X))=(Y-f(X))^{2} L(Y,f(X))=(Yf(X))2

      3. 绝对损失函数(absolute loss function)

        L ( Y , f ( X ) ) = ∣ Y − f ( X ) ∣ L(Y, f(X))=|Y-f(X)| L(Y,f(X))=Yf(X)

      4. 对数损失函数(logarithmic loss function)或对数似然损失函数 (log-likelihood
        loss function )
        L ( Y , P ( Y ∣ X ) ) = − log ⁡ P ( Y ∣ X ) L(Y, P(Y \mid X))=-\log P(Y \mid X) L(Y,P(YX))=logP(YX)

    • 风险

      • 经验风险

        ​ 模型关于训练数据集的平均损失

      • 期望风险

        ​ 模型关于联合分布的期望损失

      • 结构风险

        ​ 即正则化,减少模型复杂度,减少过拟合的风险

  • 算法

    • 学习模型的具体巨酸方法
    • 最优化方法

常用模型选择方法

  • 正则化
  • 交叉验证
    • 简单交叉
    • K折(书中称之为S折)
    • 留一(数据缺乏的时候)

泛化能力

  • 泛化误差

    • 如果学到的模型是 f ^ \hat{f} f^, 那么用这个模型对未知数据预 测的误差即为泛化误差 (generalization error):
      R exp ⁡ ( f ^ ) = E P [ L ( Y , f ^ ( X ) ) ] = ∫ X × Y L ( y , f ^ ( x ) ) P ( x , y ) d x   d y \begin{aligned} R_{\exp }(\hat{f}) &=E_{P}[L(Y, \hat{f}(X))] \\ &=\int_{\mathcal{X} \times \mathcal{Y}} L(y, \hat{f}(x)) P(x, y) \mathrm{d} x \mathrm{~d} y \end{aligned} Rexp(f^)=EP[L(Y,f^(X))]=X×YL(y,f^(x))P(x,y)dx dy
  • 分化误差上界(假设空间为有限个函数)(证明见书)

    • 对二类分类问题,当假设空间是有限个函数的集合 F = { f 1 , f 2 , ⋯   , f d } \mathcal{F}=\left\{f_{1}, f_{2}, \cdots, f_{d}\right\} F={f1,f2,,fd} 时, 对任意一个函数 f ∈ F f \in \mathcal{F} fF, 至少以概率 1 − δ , 0 < δ < 1 1-\delta, 0<\delta<1 1δ,0<δ<1, 以下
      不等式成立:
      R ( f ) ⩽ R ^ ( f ) + ε ( d , N , δ ) R(f) \leqslant \hat{R}(f)+\varepsilon(d, N, \delta) R(f)R^(f)+ε(d,N,δ)
      其中,
      ε ( d , N , δ ) = 1 2 N ( log ⁡ d + log ⁡ 1 δ ) \varepsilon(d, N, \delta)=\sqrt{\frac{1}{2 N}\left(\log d+\log \frac{1}{\delta}\right)} ε(d,N,δ)=2N1(logd+logδ1)

生成模型和判别模型

  • 判别模型是直接基于后验条件概率进行建模
  • 判别方法由数据直接学习决策函数 f ( X ) f(X) f(X) 或者条件概率分布 P ( Y ∣ X ) P(Y \mid X) P(YX) 作为预测的 模型, 即判别模型。判别方法关心的是对给定的输入 X X X, 应该预测什么样的输出 Y Y Y
  • 生成模型是对联合分布进行建模
  • 生成方法可以还原出联合概率分布 P ( X , Y ) P(X, Y) P(X,Y)

分类问题的各种评价指标

T P ⟶ \mathrm{TP} \longrightarrow TP 将正类预测为正类数;
F N ⟶ \mathrm{FN} \longrightarrow FN 将正类预测为负类数;
F P ⟶ \mathrm{FP} \longrightarrow FP 将负类预测为正类数;
T N ⟶ \mathrm{TN}\longrightarrow TN将负类预测为负类数。
精确率定义为:
P = T P T P + F P P=\frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FP}} P=TP+FPTP
召回率定义为:
R = T P T P + F N R=\frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FN}} R=TP+FNTP
F 1 F_{1} F1 值, 精确率和召回率的调和均值, 定义为:
2 F 1 = 1 P + 1 R \frac{2}{F_{1}}=\frac{1}{P}+\frac{1}{R} F12=P1+R1
F 1 = 2 T P 2 T P + F P + F N F_{1}=\frac{2 \mathrm{TP}}{2 \mathrm{TP}+\mathrm{FP}+\mathrm{FN}} F1=2TP+FP+FN2TP
精确率和召回率都高时, F 1 F_{1} F1 值也会高。

标注问题

对比分类问题:标注是序列

回归问题

  • 等价于函数拟合
  • 按照输入 分为 多元回归和一元回归
  • 按照输入和输出关系 分为 线性回归和非线性回归
    a c 2 F 1 = 1 P + 1 R ac{2}{F_{1}}=\frac{1}{P}+\frac{1}{R} ac2F1=P1+R1
    F 1 = 2 T P 2 T P + F P + F N F_{1}=\frac{2 \mathrm{TP}}{2 \mathrm{TP}+\mathrm{FP}+\mathrm{FN}} F1=2TP+FP+FN2TP
    精确率和召回率都高时, F 1 F_{1} F1 值也会高。

标注问题

对比分类问题:标注是序列

回归问题

  • 等价于函数拟合
  • 按照输入 分为 多元回归和一元回归
  • 按照输入和输出关系 分为 线性回归和非线性回归
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值