Noise & Error
Noise and Probabilistic Target
- 噪声:概率化情形
- VC在以下情形下仍然成立
- x ∼ ( i . i . d ) P ( x ) \bold x \sim (i.i.d) P(\bold x) x∼(i.i.d)P(x)
- y ∼ ( i . i . d ) P ( y ∣ x ) y \sim (i.i.d) P(y | \bold x) y∼(i.i.d)P(y∣x)
- ( x , y ) ∼ P ( x , y ) (\bold x,y) \sim P(\bold x, y) (x,y)∼P(x,y)
- 目标分布 P ( y ∣ x ) P(y | \bold x) P(y∣x):最理想的目标估计,其余皆为噪声
- 之前的确定性情形实际上是目标分布的一个特例情况——概率值为1
Error Measure
- 对得到的模式的好坏之评估:错误测量
- 基于点的错误衡量:针对每一个样本的错误衡量值均值,对
e
r
r
(
g
(
x
)
,
f
(
x
)
)
err(g(\bold x), f(\bold x))
err(g(x),f(x))取均值
- 样本内误差: E i n ( g ) = 1 N ∑ n = 1 N e r r ( g ( x n ) , f ( x n ) ) E_{in}(g) = \frac 1 N \sum _{n=1}^N err (g(\bold x_n), f(\bold x_n)) Ein(g)=N1∑n=1Nerr(g(xn),f(xn))
- 样本外误差: E o u t ( g ) = E x ∼ P [ e r r ( g ( x ) , f ( x ) ) ] E_{out}(g) = \mathbb E_{\bold x \sim P} [err (g(\bold x), f(\bold x))] Eout(g)=Ex∼P[err(g(x),f(x))]
- 两类误差:“
- 用于二元分类:0-1误差 e r r ( y ~ , y ) = [ y ~ ≠ y ] err(\tilde y,y) = [\tilde y \ne y] err(y~,y)=[y~=y]
- 用于回归:平方误差 e r r ( y ~ , y ) = ( y ~ − y ) 2 err(\tilde y, y) = (\tilde y - y)^2 err(y~,y)=(y~−y)2
Algorithmic Error Measure
- 在一些生产环境中,错误的衡量是依应用情形而定的
- 错误度量
e
r
r
^
\widehat{err}
err
的选择:
- 追求真实性:绝对的err
- 追求无异议:
- 0/1最小化翻转噪声(NP不可解)
- 平方高斯噪声
- 追求友好性:易于优化算法
- 闭合形式
- 凸目标
Weighted Classification
- 在特定的情形下,不同的错误有着不同的重要性
- 把之前对应的VC推导过程进行扩增,按照权重扩增,pocket抽取时需要将样本量对应扩增(虚拟复制)