在预测问题中,给定一个新的数据点,预测错误的期望是多少?
假设数据是独立同分布地从一个潜在固定的概率分布中获取的,假设其分布函数为
P
(
<
x
,
y
>
)
=
P
(
x
)
P
(
y
∣
x
)
P(<\textbf{x},y>) = P(\textbf{x})P(y|\textbf{x})
P(<x,y>)=P(x)P(y∣x),我们的目标就是对任意给定的数据点
x
x
x, 求出
E
P
[
(
y
−
h
(
x
)
)
2
∣
x
]
,
E_P[(y−h(\textbf{x}))^2|\textbf{x}],
EP[(y−h(x))2∣x],其中,y 是数据集中
x
\textbf{x}
x 对应的值,期望是针对所有数据集,下标 P 表示所有数据集是从同一分布 P 中获取的。形式上,该值是某一点
x
\textbf{x}
x 在多个数据集上的预测错误的均值(期望)。
对于给定的假设集,我们可以计算出模型的真实错误(true error),也称泛化错误、测试错误
∑
x
E
P
[
(
y
−
h
(
x
)
)
2
∣
x
]
P
(
x
)
,
\sum_{\textbf{x}}E_P[(y−h(\textbf{x}))^2|\textbf{x}]P(\textbf{x}),
x∑EP[(y−h(x))2∣x]P(x),即为 所有数据点 在那个输入数据的潜在固定分布上的预测错误的期望。如果
x
\textbf{x}
x 为连续变量,则上述求和转化成积分形式。
我们接下来将把 真实错误(true error) 一分为三:
真实错误
=
偏差
+
方差
+
噪声。
\textbf{真实错误 = 偏差 + 方差 + 噪声。}
真实错误 = 偏差 + 方差 + 噪声。
关于方差和期望的基本结论:
E
[
X
2
]
=
(
E
[
X
]
)
2
+
V
a
r
[
X
]
E
(
X
Y
)
=
E
(
X
)
E
(
Y
)
+
C
o
v
(
X
,
Y
)
E[X^2] = (E[X])^2 + V ar[X]\\E(XY) = E(X)E(Y) + Cov(X,Y)
E[X2]=(E[X])2+Var[X]E(XY)=E(X)E(Y)+Cov(X,Y)
先做一个简单展开:
E
P
[
(
y
−
h
(
x
)
)
2
∣
x
]
 
=
E
P
[
(
h
(
x
)
)
2
−
2
y
h
(
x
)
+
y
2
∣
x
]
 
=
E
P
[
(
h
(
x
)
)
2
∣
x
]
+
E
P
[
y
2
∣
x
]
−
2
E
P
[
y
∣
x
]
E
P
[
h
(
x
)
∣
x
]
,
…
…
(
1
)
E_P[(y−h(\mathbf{x}))^2|\mathbf{x}] \\\,\\= E_P [(h(\mathbf{x}))^2 − 2yh(\mathbf{x}) + y^2|\mathbf{x}]\\\,\\=E_P [(h(\mathbf{x}))^2|\mathbf{x}] +E_P[y^2|\mathbf{x}] -2E_P[y|\mathbf{x}]E_P[h(\mathbf{x})|\mathbf{x}],……(1)
EP[(y−h(x))2∣x]=EP[(h(x))2−2yh(x)+y2∣x]=EP[(h(x))2∣x]+EP[y2∣x]−2EP[y∣x]EP[h(x)∣x],……(1)
上式中包含三项。令
h
‾
(
x
)
=
E
P
[
h
(
x
)
∣
x
]
\overline{h}(\mathbf{x})=E_P[h(\mathbf{x})|\mathbf{x}]
h(x)=EP[h(x)∣x],表示点 x 在不同数据集上(分布P上)预测的均值(期望),则
第一项
运用方差的结论:平方的期望=期望的平方+方差
E
P
[
(
h
(
x
)
)
2
∣
x
]
=
(
h
‾
(
x
)
)
2
+
E
P
[
(
h
(
x
)
−
h
‾
(
x
)
)
2
∣
x
]
。
…
…
(
2
)
E_P [(h(\mathbf{x}))^2|\mathbf{x}]=(\overline{h}(\mathbf{x}))^2+E_P [(h(\mathbf{x})-\overline{h}(\mathbf{x}))^2|\mathbf{x}]。……(2)
EP[(h(x))2∣x]=(h(x))2+EP[(h(x)−h(x))2∣x]。……(2)
第二项
运用方差的结论:平方的期望=期望的平方+方差
E
P
[
y
2
∣
x
]
=
(
E
P
(
y
∣
x
)
)
2
+
E
P
[
(
y
−
f
(
x
)
)
2
∣
x
]
E_P [y^2|\mathbf{x}]=(E_P(y|\mathbf{x}))^2+E_P [(y-f(\mathbf{x}))^2|\mathbf{x}]
EP[y2∣x]=(EP(y∣x))2+EP[(y−f(x))2∣x]
注意到
E
P
(
y
∣
x
)
=
E
P
(
f
(
x
)
+
ϵ
∣
x
)
=
f
(
x
)
E_P(y|\mathbf{x}) = E_P(f(\mathbf{x})+\epsilon|\mathbf{x})=f(\mathbf{x})
EP(y∣x)=EP(f(x)+ϵ∣x)=f(x),其中
ϵ
∼
N
(
0
,
σ
)
\epsilon\sim N(0,\sigma)
ϵ∼N(0,σ),故上式化为
E
P
[
y
2
∣
x
]
=
(
f
(
x
)
)
2
+
E
P
[
(
y
−
f
(
x
)
)
2
∣
x
]
。
…
…
(
3
)
E_P [y^2|\mathbf{x}]=(f(\mathbf{x}))^2+E_P [(y-f(\mathbf{x}))^2|\mathbf{x}]。……(3)
EP[y2∣x]=(f(x))2+EP[(y−f(x))2∣x]。……(3)
将(2)(3)代入(1),得
E
P
[
(
y
−
h
(
x
)
)
2
∣
x
]
 
=
E
P
[
(
h
(
x
)
)
2
∣
x
]
+
E
P
[
y
2
∣
x
]
−
2
f
(
x
)
h
‾
(
x
)
 
=
(
h
‾
(
x
)
)
2
+
E
P
[
(
h
(
x
)
−
h
‾
(
x
)
)
2
∣
x
]
+
(
f
(
x
)
)
2
+
E
P
[
(
y
−
f
(
x
)
)
2
∣
x
]
−
2
f
(
x
)
h
‾
(
x
)
 
=
E
P
[
(
h
(
x
)
−
h
‾
(
x
)
)
2
∣
x
]
+
(
f
(
x
)
−
h
‾
(
x
)
)
2
+
E
P
[
(
y
−
f
(
x
)
)
2
∣
x
]
。
…
…
(
∗
)
E_P[(y−h(\mathbf{x}))^2|\mathbf{x}] \\\,\\=E_P [(h(\mathbf{x}))^2|\mathbf{x}] +E_P[y^2|\mathbf{x}] -2f(\mathbf{x})\overline{h}(\mathbf{x}) \\\,\\=(\overline{h}(\mathbf{x}))^2+E_P [(h(\mathbf{x})-\overline{h}(\mathbf{x}))^2|\mathbf{x}] \\+ (f(\mathbf{x}))^2+E_P [(y-f(\mathbf{x}))^2|\mathbf{x}] \\-2f(\mathbf{x})\overline{h}(\mathbf{x}) \\\,\\=E_P [(h(\mathbf{x})-\overline{h}(\mathbf{x}))^2|\mathbf{x}] +(f(\mathbf{x})-\overline{h}(\mathbf{x}))^2 + E_P [(y-f(\mathbf{x}))^2|\mathbf{x}] 。……(*)
EP[(y−h(x))2∣x]=EP[(h(x))2∣x]+EP[y2∣x]−2f(x)h(x)=(h(x))2+EP[(h(x)−h(x))2∣x]+(f(x))2+EP[(y−f(x))2∣x]−2f(x)h(x)=EP[(h(x)−h(x))2∣x]+(f(x)−h(x))2+EP[(y−f(x))2∣x]。……(∗)
大功告成!!!!!!!!!!!!!!!!!!!!!!!!!!!!
- E P [ ( h ( x ) − h ‾ ( x ) ) 2 ∣ x ] E_P [(h(\mathbf{x})-\overline{h}(\mathbf{x}))^2|\mathbf{x}] EP[(h(x)−h(x))2∣x] 为 预测的 方差;
- ( f ( x ) − h ‾ ( x ) ) 2 (f(\mathbf{x})-\overline{h}(\mathbf{x}))^2 (f(x)−h(x))2 为 平方偏差;
- E P [ ( y − f ( x ) ) 2 ∣ x ] E_P [(y-f(\mathbf{x}))^2|\mathbf{x}] EP[(y−f(x))2∣x] 为 噪声