最早在Hinton老爷子的文章里看到了explaining away这个概念,困惑了很长时间。最近在看Stanford大神Daphne Koller的概率图模型,里面贝叶斯网络一节讲到了explaining away。我看过之后试着谈谈自己的理解。
explaining away指的是这样一种情况:对于一个多因一果的问题,假设各种“因”之间都是相互独立的,如果已经确定了是因为其中一种原因导致了结果,那么因为其他原因导致了该结果的概率就会下降。
单纯看定义似乎很令人费解,因为原因之间应该是相互独立的,怎么会相互影响呢?举个最简单的例子就可以回答这个问题。
考虑三个随机变量ABC,其中C=A | B,AB相互独立。如果写出它们的概率分布就是这样的:
A | B | C | P |
0 | 0 | 0 | 0.25 |
0 | 1 | 1 | 0.25 |
1 | 0 | 1 | 0.25 |
1 | 1 | 1 | 0.25 |
假设我们观察到C = 1,但不知道是哪种原因导致的,那么根据上面的联合概率分布可以推断,P( A = 1 | C = 1 ) = P( B = 1 | C = 1 ) = 2/3。而且P( B = 1 | C = 1 ) > P( B = 1 ),即因为观察到了“果”,出现“因”的概率比平常更大,这是符合我们经验的。
但是,如果我们已经确认了A = 1,那么此时不论B取值为多少都会有C=1,即P( B = 1 | C = 1, A = 1 ) = 1/2 = P( B = 1 ) < P( B = 1 | C = 1 ) 。B的取值再一次变得完全无法判断(对比上面,B取值为1的概率减小了),这就是explaining away。
在现实生活中也可以找到这样的例子:假设房子倒塌的可能性包括地震和恐怖袭击,如果我们发现房子倒了,那么很有可能发生了两者中的一个,但如果我们知道是恐怖分子用飞机撞倒的,那么我们就无法判断是不是发生了地震。这时地震的概率就从“很可能”变回了“有可能”,概率降低了,这就是explaining away。