[課程筆記] 機器學習基石 - W8. Noise and Error

目录

Video1: Noise and Probabilistic Target

Noise

Probabilistic Marbles

Target Distribution P(y|x)

The New Learning Flow

Video2: Error Measure

Error Measure

Pointwise Error Measure

Ideal Mini-Target 

Learning Flow with Error Measure

Video3: Algorithmic Error Measure

Fingerprint Verification

Take Home Message for Now

Video4: Weighted Classification

Weighted Classification

Weighted Pocket Algorithm

参考


Video1: Noise and Probabilistic Target

Noise

  • 在实务中,数据可能会有杂讯:
    • y 标记错误
    • x 记录错误
    • 相同的顾客 x,存在不同的结果 y

Probabilistic Marbles

  • 以之前的弹珠抽样为例,透过抽样来估算罐子中橘色弹珠的比例
  • Deterministic marbles:
    • 假设不存在杂讯,则结果由 x 决定,不存在随机性
  • Probabilistic (noisy) marbles:
    • 当杂讯存在时,即使抽样出 x ,其结果是由一个几率分布 P(y|x) 所决定
  • 只要把随机性带入 VC bound 的证明,可以证明即使数据有杂讯学习仍然是可行的

Target Distribution P(y|x)

  • Target Distribution:
    • 描述了一个 x 的 mini-target 特性  (mini-target: 是同个 x 的两种可能结果)
  • Ideal mini-target: 
    • 在 mini-target 中,把几率高的称为 ideal mini-target,几率低的称为 noise
    • deterministic target ,其实就是 mini-target 中,杂讯几率为 0 的特殊情况
  • 我们学习的目标是: 在最常被抽样的数据上,得到 ideal mini-target 结果

The New Learning Flow

  • 再有杂讯的情况下,y 变成是带有随机性的,且由 P(y|x) 决定
  • 整个学习的流程中,我们同样使用 y 进行训练、验证

Video2: Error Measure

Error Measure

  • Error measure 目的是要估算 g 的误差 (也就是 g 与 f 是否接近)
  • 之前计算误差的方式有三个特性:
    • 使用尚未取得的数据点
    • 以数据点为单位进行计算
    • 根据分类的结果来计算 (又称为 0/1 error)

Pointwise Error Measure

  • Pointwise error measure 先计算每个数据点的误差,再计算整体误差
  • 本课程接下来,会以 Pointwise error measure 为主
  • 两种 Pointwise error measure
    • 用于分类问题: 0/1 error
    • 用于回归问题: squared error

Ideal Mini-Target 

  • 不同的任务,其 Ideal Mini-Target 的计算方式也不同
    • 0/1 Error: 取几率最大的结果
    • Squared Error : 取所有结果平均期望值

Learning Flow with Error Measure

  • 现在整个流程,引入了误差衡量机制
  • 误差衡量机制用来判断 g 的好坏,同时也帮助演算法挑选更好的 g 

Video3: Algorithmic Error Measure

Fingerprint Verification

  • 误差不仅仅只是  0/1 而已,以指纹辨识为例,其错误可分为两类 : 
    • False reject: 拒绝了本不该被拒绝的人
    • False accept: 让不该通行的人通行
  • 不同的应用场景,对误差有不同的要求:
    • 发放优惠券: 不希望 False reject 发生,False accept 发生则没关系
    • CIA门禁系统: 不希望 False accept 发生,False reject 发生则没关系

Take Home Message for Now

  • 在许多应用场景中,我们对误差的要求是难以描述与量化的
    • 我们在意的误差: err
    • 实际上能被应用的误差: \widehat{err}
  • 演算法中,对误差的计算:
    • 如果可以量化并且用数学式表示,那就直接使用 err
    • 使用通用的误差衡量,像是 0/1 error, squared error 
    • 使用容易实现的方式,像是 closed form solution、convex optimization

Video4: Weighted Classification

Weighted Classification

  • Cost Matrix: 描述了不同种类的错误所造成的成本或代价
  • 延续前面 CIA 门禁系统的例子,False accept 的错误成本是 1000
  • 在之前的课程中,有证明 pocket 演算法能在 0/1 error 情况下,找到 E_{in} 最小的 g
  • 如何证明在 pocket 演算法中使用 Weighted Classification,能有同样的结果?

Weighted Pocket Algorithm

  • 考虑两种 E_{in} 相同的情况 :
    • 原始问题: 在计算错误时,增加 False accept 数据点的错误成本
    • 等同于: 在计算错误时,增加 False accept 数据点的数量
  • 我们想解决的原始问题,其实就等同于增加错误 False accept 数据量
  • 实务上为了避免数据量增加的成本,通常会以增加采样几率的方式来实现

参考

  1. 機器學習基石上 (Machine Learning Foundations)---Mathematical Foundations | Courser

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值