后验概率直觉解释

后验概率直觉分析

后验概率的公式为,等式的第三部分只是简单地对第二部分的改写。

要对这个公式建立起直觉上的理解,我打算讲解三个因素对后验概率产生影响。
这里写图片描述
第一因素,我们要的是 一个特征为 x 的数据,能有多大几率推算出它的 label 为 y,即 y 的后验概率 P(Y=ck|X=x) 以直觉来说,如果训练集中大部分 label 为 y 的数据的特征都为 x,那么一个特征都为 x 的数据的 label 也有很大几率为 y

但上面仅仅是一个因素,另外一个因素就是 label 为 y 的训练数据占整个训练集的比例(先验概率),如果这个比例很小,那么就说明 y 能推出 x 很有可能是偶然事件。无论计算出的 y 能推出 x 的概率有多高都不足以证明 y 能推出 x。可以这样说, P(Y=ck) 是对 P(Y=ck|X=x) 后验概率的一种评估,评估这个概率的说服力有多强

最后一个因素就是整个训练集中特征为 x 的数据占的比例,可以想象到,如果以 x 为特征的数据很少,那么知道 “大部分 label 为 y 的特征都为 x” 这个事件的说服力就会变强。类似地,。下面举例说明,假设训练集大小为 10,label 为 y 的数据有 5 个 P(Y=y)=1/2 ,且最好情况下,其特征都是 x,即 P(X=x|Y=y)=1 。那么如果整个训练集中就只有这 5 个特征 x,那么 P(X=x)=1/2 。此时,特征 x 推出 label 为 y 的概率十分高:

那么,如果不是这么好的情况,假设训练集里不止 5 个特征 x,而是 7 个。这就说明有 2 个特征 x 的 label 不为 y,虽然这个时候 P(X=x|Y=y) 仍然是 1,但是这个概率的效果要打个折扣了。因为这种情况存在另外一种可能:特征 x 是普遍存在的特征(考虑极端情况,训练集全部特征都是 x),和它的 label 是什么没有关系。所以,此时的概率就被削弱成:
这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值