后验概率直觉分析
后验概率的公式为,等式的第三部分只是简单地对第二部分的改写。
要对这个公式建立起直觉上的理解,我打算讲解三个因素对后验概率产生影响。
第一因素,我们要的是 一个特征为 x 的数据,能有多大几率推算出它的 label 为 y,即 y 的后验概率
P(Y=ck|X=x)
。以直觉来说,如果训练集中大部分 label 为 y 的数据的特征都为 x,那么一个特征都为 x 的数据的 label 也有很大几率为 y。
但上面仅仅是一个因素,另外一个因素就是 label 为 y 的训练数据占整个训练集的比例(先验概率),如果这个比例很小,那么就说明 y 能推出 x 很有可能是偶然事件。无论计算出的 y 能推出 x 的概率有多高都不足以证明 y 能推出 x。可以这样说, P(Y=ck) 是对 P(Y=ck|X=x) 后验概率的一种评估,评估这个概率的说服力有多强。
最后一个因素就是整个训练集中特征为 x 的数据占的比例,可以想象到,如果以 x 为特征的数据很少,那么知道 “大部分 label 为 y 的特征都为 x” 这个事件的说服力就会变强。类似地,。下面举例说明,假设训练集大小为 10,label 为 y 的数据有 5 个
P(Y=y)=1/2
,且最好情况下,其特征都是 x,即
P(X=x|Y=y)=1
。那么如果整个训练集中就只有这 5 个特征 x,那么
P(X=x)=1/2
。此时,特征 x 推出 label 为 y 的概率十分高:
那么,如果不是这么好的情况,假设训练集里不止 5 个特征 x,而是 7 个。这就说明有 2 个特征 x 的 label 不为 y,虽然这个时候
P(X=x|Y=y)
仍然是 1,但是这个概率的效果要打个折扣了。因为这种情况存在另外一种可能:特征 x 是普遍存在的特征(考虑极端情况,训练集全部特征都是 x),和它的 label 是什么没有关系。所以,此时的概率就被削弱成: