目录
Video1: Noise and Probabilistic Target
Learning Flow with Error Measure
Video3: Algorithmic Error Measure
Video4: Weighted Classification
Video1: Noise and Probabilistic Target
Noise
- 在实务中,数据可能会有杂讯:
- y 标记错误
- x 记录错误
- 相同的顾客 x,存在不同的结果 y
Probabilistic Marbles
- 以之前的弹珠抽样为例,透过抽样来估算罐子中橘色弹珠的比例
- Deterministic marbles:
- 假设不存在杂讯,则结果由 x 决定,不存在随机性
- Probabilistic (noisy) marbles:
- 当杂讯存在时,即使抽样出 x ,其结果是由一个几率分布 P(y|x) 所决定
- 只要把随机性带入 VC bound 的证明,可以证明即使数据有杂讯学习仍然是可行的
Target Distribution P(y|x)
- Target Distribution:
- 描述了一个 x 的 mini-target 特性 (mini-target: 是同个 x 的两种可能结果)
- Ideal mini-target:
- 在 mini-target 中,把几率高的称为 ideal mini-target,几率低的称为 noise
- deterministic target ,其实就是 mini-target 中,杂讯几率为 0 的特殊情况
- 我们学习的目标是: 在最常被抽样的数据上,得到 ideal mini-target 结果
The New Learning Flow
- 再有杂讯的情况下,y 变成是带有随机性的,且由 P(y|x) 决定
- 整个学习的流程中,我们同样使用 y 进行训练、验证
Video2: Error Measure
Error Measure
- Error measure 目的是要估算 g 的误差 (也就是 g 与 f 是否接近)
- 之前计算误差的方式有三个特性:
- 使用尚未取得的数据点
- 以数据点为单位进行计算
- 根据分类的结果来计算 (又称为 0/1 error)
Pointwise Error Measure
- Pointwise error measure 先计算每个数据点的误差,再计算整体误差
- 本课程接下来,会以 Pointwise error measure 为主
- 两种 Pointwise error measure
- 用于分类问题: 0/1 error
- 用于回归问题: squared error
Ideal Mini-Target
- 不同的任务,其 Ideal Mini-Target 的计算方式也不同
- 0/1 Error: 取几率最大的结果
- Squared Error : 取所有结果平均期望值
Learning Flow with Error Measure
- 现在整个流程,引入了误差衡量机制
- 误差衡量机制用来判断 g 的好坏,同时也帮助演算法挑选更好的 g
Video3: Algorithmic Error Measure
Fingerprint Verification
- 误差不仅仅只是 0/1 而已,以指纹辨识为例,其错误可分为两类 :
- False reject: 拒绝了本不该被拒绝的人
- False accept: 让不该通行的人通行
- 不同的应用场景,对误差有不同的要求:
- 发放优惠券: 不希望 False reject 发生,False accept 发生则没关系
- CIA门禁系统: 不希望 False accept 发生,False reject 发生则没关系
Take Home Message for Now
- 在许多应用场景中,我们对误差的要求是难以描述与量化的
- 我们在意的误差:
- 实际上能被应用的误差:
- 我们在意的误差:
- 演算法中,对误差的计算:
- 如果可以量化并且用数学式表示,那就直接使用
- 使用通用的误差衡量,像是 0/1 error, squared error
- 使用容易实现的方式,像是 closed form solution、convex optimization
- 如果可以量化并且用数学式表示,那就直接使用
Video4: Weighted Classification
Weighted Classification
- Cost Matrix: 描述了不同种类的错误所造成的成本或代价
- 延续前面 CIA 门禁系统的例子,False accept 的错误成本是 1000
- 在之前的课程中,有证明 pocket 演算法能在 0/1 error 情况下,找到
最小的 g
- 如何证明在 pocket 演算法中使用 Weighted Classification,能有同样的结果?
Weighted Pocket Algorithm
- 考虑两种
相同的情况 :
- 原始问题: 在计算错误时,增加 False accept 数据点的错误成本
- 等同于: 在计算错误时,增加 False accept 数据点的数量
- 我们想解决的原始问题,其实就等同于增加错误 False accept 数据量
- 实务上为了避免数据量增加的成本,通常会以增加采样几率的方式来实现