要了解贝叶斯定理,我们必须先知道什么是条件概率
概率是什么我们大家都知道,它能够反映随机事件出现的可能性大小
那什么是条件概率,
现在有一位小明同学,上学总是迟到,迟到也是有概率的,
小明每次迟到当然也是有原因的,假设小明迟到就是因为晚上打游戏早上经常睡过,
如果前一天小明不玩游戏,第二天迟到的概率是20%
如果小明前一天玩游戏,那第二天迟到的概率是60%
这两个也就称之为条件概率,有条件的迟到
那到底这和贝叶斯有什么关系呢
贝叶斯就是首先知道一个概率,叫做先验概率,然后呢再收集一些信息,这些信息呢就是上面说的那些条件概率,通过贝叶斯定理就可以计算出一个后验的概率,这么说比较抽象,还是这个例子具体来讲
我们现在知道了小明玩游戏迟到的概率,那我们想翻过来推,小明第2天迟到了,他前一天玩游戏的概率是多少,这个就是我们想要通过贝叶斯定理来计算的后验概率
上述的两个条件概率就是我们收集到的信息,这还不够,要想知道后验概率(小明第2天迟到了,他前一天玩游戏的概率),我们还需要知道一些先验信息,那就是小明晚上玩游戏的概率,
接的假设小明晚上不玩游戏的概率是30%,玩游戏的概率是70%
其实看的很复杂一共也就四种情况
情况 | 结果的概率 | 值 |
---|---|---|
玩游戏迟到 | 70%*60% | 0.42 |
玩游戏不迟到 | 70%(1-60%) | 0.28 |
不玩游戏迟到 | 30%*20% | 0.06 |
不玩游戏不迟到 | 30%(1-20%) | 0.24 |
0.42+0.28+0.06+0.24=1
所以得到小明迟到前一天玩游戏的概率是0.42/(0.42+0.06)*100%=87.5%
当然了,这也只是两事件情形的贝叶斯定理
贝叶斯定理还可能是有很多的情形,如下面的公式
贝叶斯还有一个例子
艾滋病患病率为万分之一,误诊率为5%,患有艾滋病者被诊断出来的概率为99%,请问在这样的设定下如果有一个人被诊断为艾滋病阳性,那么这个人患艾滋病的概率是多少
根据公式,不难算出
99%×1/10000/(99%×1/10000+5%×9999/10000)≈0.198%
看起来似乎不可思议,其实问题就出在了这个5%的误诊上面,5%的误诊,10000个人误诊就是500人,而这500人中也只要一个患病的,大概就是千分之2的概率
那么想要提高准确率,直接把误诊率缩小到和患病率一样,1/10000那么如下
99%×1/10000/(99%×1/10000+1/10000×9999/10000)≈49.8%
要让诊断结果的可靠性超过百分之五十,它的误诊率需要低于万分之一才行
也就是误诊率和患病率相同的情况下,可靠性才能接近百分之五十
主要原因还是患病率极低所导致
如果是正常的病,患病率是10%,那么即使误诊率在5%,可靠性是69%
99%×1/10/(99%×1/10+5%×9/10)≈69%