在看Hastie的The element of statistical learning的第二章时,看到关于用统计决定论的观点来解释监督学习的问题时有些困惑,下面梳理一下。
输入:
X∈Rp
X
∈
R
p
输出:
Y∈R
Y
∈
R
二者的联合概率分布为
Pr(X,Y)
P
r
(
X
,
Y
)
,需要找一个函数
f
f
来预测Y,定义以个损失函数(较常见的一种就是平方误差损失):
我们可以用最小化(minimize)预测误差的期望(expected prediction error,EPE)来得到要找的函数 f f ,
实际上联合概率分布 Pr(X,Y) P r ( X , Y ) 是未知的,所以上式不能由最右边的式子直接计算。如果知道了 Pr(X,Y) P r ( X , Y ) 那么可以直接计算 Pr(Y|X) P r ( Y | X ) 了,就不用拟合学习了,所以这是一个病态问题(ill-formed problem)。
上式的求解可以用 Pr(X,Y)=Pr(Y|X)Pr(X) P r ( X , Y ) = P r ( Y | X ) P r ( X ) 变一下形式,把关于两个变量的积分分开计算,
其中期望 E E 的下标只是区分求的是条件期望还是直接对随机变量求期望。
此处用到了条件期望,比如对于随机变量和 Y Y 来说,求给定时 X X 的均值,即
同样 Y=y Y = y 条件下 r(X,Y) r ( X , Y ) 的期望为,E(r(X,Y)|Y=y)=∫r(x,y)Pr(X|Y)(x|y)dx E ( r ( X , Y ) | Y = y ) = ∫ r ( x , y ) P r ( X | Y ) ( x | y ) d x
其实,在确定 Y=y Y = y 之前, E(X|Y) E ( X | Y ) 是一个随机变量,而不是一个数,当 Y=y Y = y 时,该随机变量取值为, E(X|Y=y) E ( X | Y = y )所以只要逐点最小化 EPE E P E 就可以了,在 X=x X = x 点处,
f(x)=argmincEY|X((Y−c)2|X=x) f ( x ) = a r g m i n c E Y | X ( ( Y − c ) 2 | X = x )c=>f(X=x) c => f ( X = x ) 所以它的解为f(x)=E(Y|X=x), f ( x ) = E ( Y | X = x ) ,
最后退回了最原始的条件期望。参考书目:
1. The elements of statistical Learning, 2nd Edition, Trevor Hastie。
2. 统计学习方法, 李航。
3. All of statistics:A Concise Course in Statistical Inference。