《神经网络》第五章:机器学习基础 笔记

5.1 学习算法
  • 任务T
  • 经验E
  • 性能度量P
5.1.1 任务T

任务
机器学习任务定义为机器学习熊应该如何处理样本(example);即对样本进行一个复杂的非线性变换从而能得到正确的结果。
样本
值从对象或事件中收集到的已经量化的特征(feature)的集合。
常见的任务

  • 分类/输入缺失分类
    f : R n → { 1 , 2 , ⋯   , k } f:R^n \rightarrow \{1,2,\cdots,k\} f:Rn{1,2,,k}
    输出应该是一个概率分布(经过softmax转化),选概率最大的类别作为最终类别
  • 回归
    f : R n → R f:R^n \rightarrow R f:RnR
    输出是连续实数
  • 转录
    将一些相对非结构化表示的数据信息,转录为离散的文本形式。
    例如:OCR(光学字符识别),ASR(语音识别)
  • 机器翻译
    seq2seq,输入是一种语言符号序列,输出是另一种语言符号序列
  • 结构化输出
    输出是向量或其他包含多个值的数据结构,输出值间内部紧密相关。
    例如:语法树
  • 异常检测
    筛选出不正常或非典型的个体
  • 合成与采样
    生成一些和训练数据相似的新样本。
    例如:VAE,GAN
  • 缺失值填充
  • 去噪
    输入被损坏的样本,通过损坏样本预测干净样本
  • 密度估计
    可以解释成样本采样空间的概率密度函数(连续)或概率质量函数(离散样本)
5.1.2 性能度量P

用于评估机器学习算法能力

  • 回归任务:MSE(均方误差)
  • 分类任务:错误率、准确率、精度与召回率、F1等

在测试集上评估系统性能

5.1.3 经验E
  • 无监督学习:学习数据集有用的结构性质。
    试图显示或隐式的学习出概率分布 p ( x ) p(x) p(x)。显示的例如密度估计,隐式的例如合成或去噪。其他类型例如聚类。(PCA)
  • 监督学习:样本中包含标签(label)或目标(target)
    从x预测y,估计 p ( x ∣ y ) p(x|y) p(xy)。例如回归、分类(LDA)
  • 强化学习(reinforcement):学习系统和训练过程有反馈。
5.2 容量、过拟合、欠拟合

欠拟合
模型不能在训练集上获得较小误差。
过拟合
训练误差和测试误差间差距太大。
容量(capacity)
模型的容量指模型拟合各种函数的能力(模型的参数的多少)。低容量导致欠拟合;高容量导致过拟合。

  • 泛化(generalization)
  • 机器学习和优化不同的地方:希望泛化误差/测试误差低
  • 度量测试集样本的性能,评估机器学习的泛化误差
  • 决定学习算法是否好的因素
    • 降低训练误差
    • 缩小训练误差和测试误差的差距
  • 奥卡姆剃刀:若有多个假设与观察一致,选择最简单的
  • 没有免费的午餐定理:不存在能够在所有可能的分类问题中性能均为最优的算法。暗示我们在特定的任务上设计性能良好的算法。
  • 解决方案:尽可能深入了解所面对的分布,找到先验知识
  • 正则化:修改学习算法,使其降低泛华误差,而非训误差。
5.3 超参数、验证集

超参数
超参数的值不是通过学习算法本身学出来的。例如正则化的系数 λ \lambda λ。有时一个选项必须是超参数,因为它不适合在训练集上学习。
验证集
用于挑选超参数的数据子集。通常80%的数据用于训练,20%用于验证。

  • 交叉验证

实际训练时数据可以分为

  • 训练集:训练模型
  • 交叉验证集:判断学习率是否要调整,何时结束训练。一般训练数据每过一轮(one epoch ),都要在交叉验证集上看一下损失函数。(只是一个辅助训练)
  • 测试集:判断模型性能的好坏。
5.4 估计、偏差、方差
5.4.1 点估计
  • 点估计
    以抽样得到的样本指标做为总体指标的估计。并以样本指标的实际值做总体未知参数的估计值的一种推断。
  • 区间估计
    点估计无法精确的给出总体参数的精确值,所以在点估计的基础上加减一个边际误差的值来计算区间估计。
  • 函数估计
    指输入和目标变量之间关系的估计。例如线性回归,对每个参数 w i w_i wi的估计。
5.4.2 偏差和方差

偏差
描述的是预测值(点估计)的期望和真实值之间的差距。偏差越大,越偏离真实数据
b i a s ( θ ^ ) = E ( θ ^ ) − θ bias(\hat \theta) = E(\hat \theta) - \theta bias(θ^)=E(θ^)θ
无偏估计
b i a s ( θ ^ ) = 0 bias(\hat \theta) = 0 bias(θ^)=0
举例:

  1. 伯努利分布 p ( x ( i ) ; θ ) = θ x ( i ) ( 1 − θ ) 1 − x ( i ) p(x^{(i)};\theta) = \theta^{x^{(i)}}(1-\theta)^{1-x^{(i)}} p(x(i);θ)=θx(i)(1θ)1x(i);
    极大似然估计:
    l = ∏ θ x ( i ) ( 1 − θ ) 1 − x ( i ) L = ∑ m ( x ( i ) log ⁡ θ + ( 1 − x ( i ) ) log ⁡ ( 1 − θ ) ) ∂ L ∂ θ = 1 θ ∑ m x ( i ) − 1 1 − θ ∑ m ( 1 − x ( i ) ) = ∑ m x ( i ) − m θ θ ( 1 − θ ) = 0 θ = 1 m ∑ m x ( i ) \begin{aligned} l & = \prod \theta^{x^{(i)}}(1-\theta)^{1-x^{(i)}}\\ L & = \sum^m \Big( x^{(i)}\log \theta + (1- x^{(i)})\log(1-\theta) \Big)\\ \frac{\partial L}{\partial \theta} & = \frac{1}{\theta}\sum^m x^{(i)} - \frac{1}{1-\theta}\sum^m(1-x^{(i)}) \\ &= \frac{\sum^m x^{(i)} - m\theta}{\theta(1-\theta)}=0 \\ \theta &= \frac{1}{m}\sum^m x^{(i)} \end{aligned} lLθLθ=θx(i)(1θ)1x(i)=m(x(i)logθ+(1x(i))log(1θ))=θ1mx(i)1θ1m(1x(i))=θ(1θ)mx(i)mθ=0=m1mx(i)
    偏差:
    b i a s ( θ ^ ) = E ( θ ^ ) − θ = E ( 1 m ∑ m x ( i ) ) − θ = 1 m ∑ m E ( x ( i ) ) − θ = 1 m ∑ m ∑ x ( i ) = 0 ∣ 1 x ( i ) ( θ x ( i ) ( 1 − θ ) 1 − x ( i ) ) − θ = 1 m ∑ m θ − θ = 0 \begin{aligned} bias(\hat \theta) &= E(\hat \theta) - \theta\\ &= E(\frac{1}{m}\sum^m x^{(i)}) - \theta \\ & = \frac{1}{m}\sum^m E(x^{(i)}) - \theta \\ &= \frac{1}{m}\sum^m \sum_{x^{(i)} =0|1}x^{(i)}(\theta^{x^{(i)}}(1-\theta)^{1-x^{(i)}}) - \theta\\ &= \frac{1}{m}\sum^m \theta - \theta = 0 \end{aligned} bias(θ^)=E(θ^)θ=E(m1mx(i))θ=m1mE(x(i))θ=m1mx(i)=01x(i)(θx(i)(1θ)1x(i))θ=m1mθθ=0
    因此是无偏估计

  2. 高斯分布的样本方差
    估计值是 μ ^ = 1 m ∑ x , σ ^ 2 = 1 m ∑ ( x − μ ^ ) 2 \hat \mu = \frac{1}{m}\sum x,\hat \sigma^2 = \frac{1}{m}\sum(x-\hat \mu)^2 μ^=m1x,σ^2=m1(xμ^)2.方差估计的偏差为:
    b i a s ( σ ^ 2 ) = E ( σ ^ 2 ) − σ 2 = E ( 1 m ∑ ( x ( i ) − μ ^ ) 2 ) − σ 2 = 1 m E ( ∑ ( x ( i ) − μ ^ ) 2 ) − σ 2 = 1 m E ∑ [ ( x ( i ) − μ ) − ( μ ^ − μ ) ] 2 − σ 2 = 1 m ∑ E ( x ( i ) − μ ) 2 − 2 m E ∑ ( μ ^ − μ ) ( x ( i ) − μ ) + m m E ( μ ^ − μ ) 2 − σ 2 \begin{aligned} bias(\hat \sigma^2) &= E(\hat \sigma^2) - \sigma^2 \\ &= E(\frac{1}{m}\sum(x^{(i)}-\hat \mu)^2) - \sigma^2 \\ & = \frac{1}{m} E(\sum(x^{(i)}-\hat \mu)^2) - \sigma^2\\ &= \frac{1}{m} E\sum[(x^{(i)}-\mu)-(\hat \mu -\mu)]^2 - \sigma^2\\ &= \frac{1}{m}\sum E(x^{(i)} -\mu)^2 -\frac{2}{m}E\sum(\hat \mu-\mu)(x^{(i)}-\mu) + \frac{m}{m}E(\hat \mu -\mu)^2 - \sigma^2 \\ \end{aligned} bias(σ^2)=E(σ^2)σ2=E(m1(x(i)μ^)2)σ2=m1E((x(i)μ^)2)σ2=m1E[(x(i)μ)(μ^μ)]2σ2=m1E(x(i)μ)2m2E(μ^μ)(x(i)μ)+mmE(μ^μ)2σ2
    由于
    ∑ ( x ( i ) − μ ) = m 1 m ∑ ( x ( i ) − μ ) = m ( μ ^ − μ ) E ( μ ^ ) = E ( 1 m ∑ x ( i ) ) = μ \begin{aligned} \sum(x^{(i)}-\mu) & = m\frac{1}{m}\sum(x^{(i)}-\mu) = m(\hat\mu - \mu) \\ E(\hat \mu) &= E(\frac{1}{m}\sum x^{(i)}) = \mu \\ \end{aligned} (x(i)μ)E(μ^)=mm1(x(i)μ)=m(μ^μ)=E(m1x(i))=μ
    因此
    E ∑ ( μ ^ − μ ) ( x ( i ) − μ ) = m E ( μ ^ − μ ) 2 E\sum(\hat \mu-\mu)(x^{(i)}-\mu) =mE(\hat\mu - \mu)^2 \\ E(μ^μ)(x(i)μ)=mE(μ^μ)2
    原式变化为
    b i a s ( σ ^ 2 ) = 1 m ∑ E ( x ( i ) − μ ) 2 − 2 E ( μ ^ − μ ) 2 − E ( μ ^ − μ ) 2 − σ 2 = 1 m ∑ E ( x ( i ) − μ ) 2 − E ( μ ^ − μ ) 2 − σ 2 \begin{aligned} bias(\hat \sigma^2) &= \frac{1}{m}\sum E(x^{(i)} -\mu)^2 -2E(\hat \mu -\mu)^2 - E(\hat \mu -\mu)^2 - \sigma^2\\ & = \frac{1}{m}\sum E(x^{(i)} -\mu)^2 -E(\hat \mu -\mu)^2 - \sigma^2\\ \end{aligned} bias(σ^2)=m1E(x(i)μ)22E(μ^μ)2E(μ^μ)2σ2=m1E(x(i)μ)2E(μ^μ)2σ2
    其中
    E ( x ( i ) − μ ) 2 = σ 2 E ( μ ^ − μ ) 2 = D ( μ ^ ) = D ( 1 m ∑ x ( i ) ) = 1 m 2 ∑ D ( x ( i ) ) = σ 2 m \begin{aligned} E(x^{(i)} -\mu)^2 &= \sigma^2\\ E(\hat\mu - \mu)^2& = D(\hat\mu) = D(\frac{1}{m}\sum x^{(i)}) = \frac{1}{m^2}\sum D(x^{(i)}) = \frac{\sigma^2}{m} \\ \end{aligned} E(x(i)μ)2E(μ^μ)2=σ2=D(μ^)=D(m1x(i))=m21D(x(i))=mσ2
    因此
    b i a s ( σ ^ 2 ) = σ 2 − σ 2 m − σ 2 = − 1 m σ 2 bias(\hat \sigma^2) = \sigma^2 - \frac{\sigma^2}{m} - \sigma^2= \frac{-1}{m}\sigma^2 bias(σ^2)=σ2mσ2σ2=m1σ2
    得出结论 σ ^ 2 = 1 m ∑ ( x − μ ^ ) 2 \hat \sigma^2= \frac{1}{m}\sum(x-\hat \mu)^2 σ^2=m1(xμ^)2不是无偏估计。
    真正的无偏估计应该是 1 m − 1 ∑ ( x − μ ^ ) 2 \frac{1}{m-1}\sum(x-\hat \mu)^2 m11(xμ^)2

方差
描述的是预测值的变化范围,离散程度,即离期望值之间的距离。方差越大,数据的分布越分散。
V a r ( θ ^ ) Var(\hat \theta) Var(θ^)

偏差和方差的trade-off

  • 偏差:度量着偏离真实函数或参数的误差期望
  • 方差:度量数据上任意特定采样可能导致的估计期望的偏差

均方误差MSE:
M S E = E ( θ ^ − θ ) 2 = b i a s ( θ ^ ) 2 + v a r ( θ ^ ) \begin{aligned} MSE &= E(\hat \theta - \theta)^2\\ &= bias( \hat\theta)^2 + var(\hat\theta) \end{aligned} MSE=E(θ^θ)2=bias(θ^)2+var(θ^)
MSE估计包含了偏差和方差。理想的估计有较小的MSE。

5.5 贝叶斯估计
  • 频率派认为 θ \theta θ是个固定的值,但当前未知。使用极大似然估计计算
    arg ⁡ max ⁡ θ P ( X ∣ θ ) \arg \max_\theta P(X|\theta) argθmaxP(Xθ)
  • 贝叶斯派认为参数是随机变量,有自己的分布,称为先验分布。使用最大后验估计计算。
    arg ⁡ max ⁡ θ P ( θ ∣ X ) = arg ⁡ max ⁡ θ P ( X ∣ θ ) P ( θ ) P ( X ) = arg ⁡ max ⁡ θ P ( X ∣ θ ) P ( θ ) \arg\max_\theta P(\theta|X) = \arg\max_\theta\frac{P(X|\theta)P(\theta)}{P(X)} = \arg\max_\theta P(X|\theta)P(\theta) argθmaxP(θX)=argθmaxP(X)P(Xθ)P(θ)=argθmaxP(Xθ)P(θ)

先验概率:根据以往经验个分析得到的概率,如全概率公式,往往是“由因求果”中的因出现。
后验概率:根据结果计算原因的概率。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值