传统的机器学习离不开贝叶斯,网上讲的都不够通俗。我就来用白话阐释一下。
先上公式:
这个公式讲了一个什么故事呢?
指的是,当新的信息出现的时候,原来的事件的概率发生了变化。
举个通俗的例子,当我拿一个手表放到你面前,让你猜这个手表是不是奢侈品手表时,你此时还没看这个手表,但是你认为按常理估计,这个手表大概率就是个普通的石英表。
突然,你观察到,这个手表上写了一个VACHERON,你转念一想,万一它要是僵尸牌手表,那我不就估计错了吗?此时,你的心态发生了变化,决定把你对这个手表判断是奢侈品的概率提升到了80%。
现在我们来分析一下你的具体心理变化过程:
1)你首先想到的是,假设它真的是僵尸牌手表,那么它刻上VACHERON的概率是百分之百;
2)然后你又想到的是,一般的手表哪有敢刻VACHERON字样的呢?这更加验证了这个手表不一般。
3)经过上面两条推断,你慌了,觉得这个手表真的可能是僵尸牌手表。于是,你现在大大地认为这块表很可能值你的一个房子钱。
现在我们来回到贝叶斯公式。
首先,P(A)讲的是先验概率,指的是,一开始你认为这个手表是奢侈品的概率非常低。P(A|B)就是当你看到这个手表有VACHERON字样以后(也就是此时B信息发生了),你觉得它是奢侈品的概率一下就增加了好多。
其次,是调整因子,它的作用是对P(A)进行改变,让它变动成为新的概率,这个新的概率就是后验概率P(A|B)。可以看到公式里,就是P(A)经过乘以这个调整因子以后,变成了P(A|B)。
再次,调整因子怎么解释呢?调整因子是一个分数,分母和分子就是上面我讲的故事里那儿的1)和2)。分母就是第一条,分子就是第二条。具体来讲的话就是:
a),你考虑到万一它真的是僵尸牌手表*,那么它刻上VACHERON字样的概率就是极高的,比如100%,此时分子P(B|A)成了一个很大的数(当然作为概率它最大就是100%)。
b),你考虑到,在所有手表当中,没有啥手表会闲着没事刻VACHERON这一串字母,所以分母P(B)就变成了一个极小的数,比如趋近1%。
当你考虑以上两条的时候,你发现,用100%除以1%的时候,这个调整因子变的非常大。此时,你心里对这块表是奢侈品手表的概率从0.08%(这是一个随口说的数字)变成了80%。
以上就是杰出的牧师兼统计学家贝叶斯发现的公式,以及你心里的变化过程。
再讲几点,把上面的故事再补充一下。
1)*“万一它真的是僵尸手表”,这里就是指的是P(B|A)这个条件概率。条件概率就是A发生的情况下B的可能性,也就是你心里假设的“万一”。
2)我们始终的着眼点都在A上面,一开始心里估计的是P(A),后面得到的结论也是P(A|B),只不过P(A|B)是新的信息B发生了以后的A。
3)调整因子说白了就是B对A的带动效应,这种带动效应考虑了两方面,一方面就是平常情况下B发生的概率(可能很低),另一方面就是A发生的情况下B的概率P(B|A),万一这两个真有必然性,那么P(B|A)肯定是很高的。
4)P(B|A)算是P(B)的一种特殊情况。事实上,P(B) = P(B|A) * P(A) + P(B|非A)* P(非A)。也就是你正常算P(B)的时候也要考虑一下P(B|A)这种情况。用上面的例子讲,就是你在估计手表0.08%的概率是奢侈品的时候,0.08%中间是考虑了奢侈品和非奢侈品两种情况的,只不过由于P(非A)概率更大,所以被稀释下来了。