noise
对于真实场景而言,大规模数据集多少会有一些noise。
数据集中的noise来源:1)来源于x,采集特征时出现错误;2)来源于y,打标签时出错。
有noise情况与理想情况区别:原来对于某个x,y是确定值;当有了noise之后,对于某个x,y是一个概率分布 P ( y ∣ x ) P(y|x) P(y∣x)。
有noise情况VC bound不等式是否依然成立:如果数据集标签按照
P
(
y
∣
x
)
P(y|x)
P(y∣x)分布,且数据集是i.i.d.(独立同分布)的,那么之前证明机器可以学习的方法依然奏效——VC Dimension有限,样本足够情况下,仍可得到
E
i
n
≈
E
o
u
t
E_{in}\approx E_{out}
Ein≈Eout。
依然成立的原因是:原来的不等式中
有noise以后只是把
f
(
x
)
f(x)
f(x)替换为
P
(
y
∣
x
)
P(y|x)
P(y∣x),
y
n
y_n
yn替换为
P
(
y
∣
x
n
)
P(y|x_n)
P(y∣xn),推导过程完全不变,所以VC bound还是成立。
有noise情况
f
(
x
)
f(x)
f(x)与
g
(
x
)
g(x)
g(x)具体含义:
在有noise情况下,当
h
h
h尽可能接近
f
f
f时,
E
i
n
E_{in}
Ein是最小的,所以在这里
f
f
f仍然是机器学习的目标函数,称为ideal mini-target function,此时最终学习的
g
g
g仍然是在尽可能模仿
f
f
f。
启发:
-
在实际的机器学习问题中,P(y|x)是未知的。但是通过选用不同的err,可以隐含地决定ideal mini-target function,也就是我们的算法学习的目标函数。
-
在实际情况中,假如20%的标签是错误的,只有80%的标签是正确的,那么机器学习的正确率的上限就是80%。
error
错误度量方法:0/1 error,squared error(一般用于回归);当然后面随着不同的任务和模型特性还会诞生很多错误评估方法。
ps. 有noise情况下,
P
(
y
∣
x
)
P(y|x)
P(y∣x)和error联合在一起,才能决定ideal mini-target function——
f
(
x
)
f(x)
f(x)。
weighted error
不同的样本(x_n,y_n)有不同的重要性,犯错的代价是不一样,当样本比较重要时,可以增加其error的权重。
比如样本非常不均衡的时候,我们希望样本比较少的一类更受重视一点,所以可以增加这一类error权重。因为如果不受重视,那么极端情况下只要模型将所有样本都判为样本多的那一类,error值仍然可以下降很多,但这样就失去学习的意义了。