条件期望

在看Hastie的The element of statistical learning的第二章时,看到关于用统计决定论的观点来解释监督学习的问题时有些困惑,下面梳理一下。
输入: XRp X ∈ R p
输出: YR Y ∈ R
二者的联合概率分布为 Pr(X,Y) P r ( X , Y ) ,需要找一个函数 f f 来预测Y,定义以个损失函数(较常见的一种就是平方误差损失):

L(Y,f(X))=(Yf(X))2

我们可以用最小化(minimize)预测误差的期望(expected prediction error,EPE)来得到要找的函数 f f
EPE(f)=E(Yf(X))2=(yf(x))2Pr(x,y)dxdy

实际上联合概率分布 Pr(X,Y) P r ( X , Y ) 是未知的,所以上式不能由最右边的式子直接计算。如果知道了 Pr(X,Y) P r ( X , Y ) 那么可以直接计算 Pr(Y|X) P r ( Y | X ) 了,就不用拟合学习了,所以这是一个病态问题(ill-formed problem)。
上式的求解可以用 Pr(X,Y)=Pr(Y|X)Pr(X) P r ( X , Y ) = P r ( Y | X ) P r ( X ) 变一下形式,把关于两个变量的积分分开计算,

(yf(x))2Pr(x,y)dxdy=(yf(x))2Pr(y|x)Pr(x)dxdy=[(yf(x))2Pr(y|x)dy]Pr(x)dx ∫ ( y − f ( x ) ) 2 P r ( x , y ) d x d y = ∫ ( y − f ( x ) ) 2 P r ( y | x ) P r ( x ) d x d y = ∫ [ ∫ ( y − f ( x ) ) 2 P r ( y | x ) d y ] P r ( x ) d x

=[(yf(x))2Pr(y|x)dy]Pr(x)dx=[EY|X((Yf(X))2|X=x)]Pr(x)dx = ∫ [ ∫ ( y − f ( x ) ) 2 P r ( y | x ) d y ] P r ( x ) d x = ∫ [ E Y | X ( ( Y − f ( X ) ) 2 | X = x ) ] P r ( x ) d x

=EX[EY|X((Yf(X))2|X)] = E X [ E Y | X ( ( Y − f ( X ) ) 2 | X ) ]

其中期望 E E 的下标只是区分求的是条件期望还是直接对随机变量求期望。

此处用到了条件期望,比如对于随机变量X Y Y 来说,求给定Y=y X X 的均值,即

E(X|Y=y)=xPr(X|Y)(x|y)dx
同样 Y=y Y = y 条件下 r(X,Y) r ( X , Y ) 的期望为,
E(r(X,Y)|Y=y)=r(x,y)Pr(X|Y)(x|y)dx E ( r ( X , Y ) | Y = y ) = ∫ r ( x , y ) P r ( X | Y ) ( x | y ) d x

其实,在确定 Y=y Y = y 之前, E(X|Y) E ( X | Y ) 是一个随机变量,而不是一个数,当 Y=y Y = y 时,该随机变量取值为, E(X|Y=y) E ( X | Y = y )

所以只要逐点最小化 EPE E P E 就可以了,在 X=x X = x 点处,

f(x)=argmincEY|X((Yc)2|X=x) f ( x ) = a r g m i n c E Y | X ( ( Y − c ) 2 | X = x )
c=>f(X=x) c => f ( X = x ) 所以它的解为
f(x)=E(Y|X=x), f ( x ) = E ( Y | X = x ) ,

最后退回了最原始的条件期望。

参考书目:
1. The elements of statistical Learning, 2nd Edition, Trevor Hastie。
2. 统计学习方法, 李航。
3. All of statistics:A Concise Course in Statistical Inference。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值