[課程筆記] 機器學習基石 - W8. Noise and Error

傷心太平洋

已于 2022-09-15 09:38:10 修改

阅读量1.3k

点赞数

分类专栏：機器學習基石文章标签：机器学习

于 2022-03-31 18:48:04 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/JYLin_master/article/details/123844403

版权

機器學習基石专栏收录该内容

9 篇文章 0 订阅

订阅专栏

目录

Video1: Noise and Probabilistic Target

Probabilistic Marbles

Target Distribution P(y|x)

The New Learning Flow

Video2: Error Measure

Pointwise Error Measure

Ideal Mini-Target

Learning Flow with Error Measure

Video3: Algorithmic Error Measure

Fingerprint Verification

Take Home Message for Now

Video4: Weighted Classification

Weighted Classification

Weighted Pocket Algorithm

Video1: Noise and Probabilistic Target

Noise

在实务中，数据可能会有杂讯:
- y 标记错误
- x 记录错误
- 相同的顾客 x，存在不同的结果 y

Probabilistic Marbles

以之前的弹珠抽样为例，透过抽样来估算罐子中橘色弹珠的比例
Deterministic marbles:
- 假设不存在杂讯，则结果由 x 决定，不存在随机性
Probabilistic (noisy) marbles:
- 当杂讯存在时，即使抽样出 x ，其结果是由一个几率分布 P(y|x) 所决定
只要把随机性带入 VC bound 的证明，可以证明即使数据有杂讯学习仍然是可行的

Target Distribution P(y|x)

Target Distribution:
- 描述了一个 x 的 mini-target 特性 (mini-target: 是同个 x 的两种可能结果)
Ideal mini-target:
- 在 mini-target 中，把几率高的称为 ideal mini-target，几率低的称为 noise
- deterministic target ，其实就是 mini-target 中，杂讯几率为 0 的特殊情况
我们学习的目标是: 在最常被抽样的数据上，得到 ideal mini-target 结果

The New Learning Flow

再有杂讯的情况下，y 变成是带有随机性的，且由 P(y|x) 决定
整个学习的流程中，我们同样使用 y 进行训练、验证

Video2: Error Measure

Error Measure

Error measure 目的是要估算 g 的误差 (也就是 g 与 f 是否接近)
之前计算误差的方式有三个特性:
- 使用尚未取得的数据点
- 以数据点为单位进行计算
- 根据分类的结果来计算 (又称为 0/1 error)

Pointwise Error Measure

Pointwise error measure 先计算每个数据点的误差，再计算整体误差
本课程接下来，会以 Pointwise error measure 为主
两种 Pointwise error measure
- 用于分类问题: 0/1 error
- 用于回归问题: squared error

Ideal Mini-Target

不同的任务，其 Ideal Mini-Target 的计算方式也不同
- 0/1 Error: 取几率最大的结果
- Squared Error : 取所有结果平均期望值

Learning Flow with Error Measure

现在整个流程，引入了误差衡量机制
误差衡量机制用来判断 g 的好坏，同时也帮助演算法挑选更好的 g

Video3: Algorithmic Error Measure

Fingerprint Verification

误差不仅仅只是 0/1 而已，以指纹辨识为例，其错误可分为两类 :
- False reject: 拒绝了本不该被拒绝的人
- False accept: 让不该通行的人通行
不同的应用场景，对误差有不同的要求:
- 发放优惠券: 不希望 False reject 发生，False accept 发生则没关系
- CIA门禁系统: 不希望 False accept 发生，False reject 发生则没关系

Take Home Message for Now

在许多应用场景中，我们对误差的要求是难以描述与量化的
- 我们在意的误差: $err$
- 实际上能被应用的误差: $\widehat{err}$
演算法中，对误差的计算:
- 如果可以量化并且用数学式表示，那就直接使用 $err$
- 使用通用的误差衡量，像是 0/1 error, squared error
- 使用容易实现的方式，像是 closed form solution、convex optimization

Video4: Weighted Classification

Weighted Classification

Cost Matrix: 描述了不同种类的错误所造成的成本或代价
延续前面 CIA 门禁系统的例子，False accept 的错误成本是 1000
在之前的课程中，有证明 pocket 演算法能在 0/1 error 情况下，找到 $E_{in}$ 最小的 g
如何证明在 pocket 演算法中使用 Weighted Classification，能有同样的结果?

Weighted Pocket Algorithm

考虑两种相同的情况 :
- 原始问题: 在计算错误时，增加 False accept 数据点的错误成本
- 等同于: 在计算错误时，增加 False accept 数据点的数量
我们想解决的原始问题，其实就等同于增加错误 False accept 数据量
实务上为了避免数据量增加的成本，通常会以增加采样几率的方式来实现

参考

機器學習基石上 (Machine Learning Foundations)---Mathematical Foundations | Courser

傷心太平洋

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[課程筆記] 機器學習基石 - W8. Noise and Error

Video1: Noise and Probabilistic TargetNoise在实务中，数据可能会有杂讯: y 标记错误 x 记录错误相同的顾客 x，存在不同的结果 y QQQVideo2: Error MeasureVideo3: Algorithmic Error MeasureVideo4: Weighted Classification参考機器學習基石上 (Machine Learning Foundations)---Mathemati.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。