在阅读《深入浅出数据分析》这本书时,觉得不管是否从事数据分析,该书里有不少经典案例都值得学习,因为很多案例都贴合实际,对人数据思维有极大的启发作用。
假如某人收到医生给你一份蜥蜴流感诊断书,诊断结果为阳性。蜥蜴流感并不致命,在家治疗几个星期即可治愈,即便因此该流感传染性极强,被感染者需要隔离6周以上。
这个时候他想起一些误诊的案例,也许他跟别人一样,被误诊了呢?
于是他上网搜索蜥蜴流感被误诊的可能性有多少?
搜索结果显示:
若某人已患蜥蜴流感:诊断结果为阳性的概率有90%
若某人没有患蜥蜴流感:诊断结果为阳性的概率有9%。
思考一下,根据这个信息,对于已经被诊断为阳性的某人,患蜥蜴流感的概率有多大?
一开始我也不知道有多大,隐约觉得跟条件概率有关,条件概率就是在A事件已发生的情况下,求B事件发生的概率,即P(B|A)。
假设100人中有90个人患病,那被诊断为阳性的某人患病的概率为81/(81+1)=98.78%.
又假设100人中有10个人患病,被诊断为阳性的某人患病概率约为8/(8+9)=47.06%.
由此可见,对于已经被诊断为阳性的某人患蜥蜴流感的概率跟总体患病的概率有关,也就是我们说的先验概率。
研究表明全国总人口中患蜥蜴流感的概率为1%,假定以1000人(数值并不重要,只要符合1%概率即可)为基础进行计算,则被诊断为阳性的某人患病概率约为9/(9+89)=9%
根据贝叶斯定理总结,P(A∪B)=P(A|B)*P(B)=P(B|A)*P(A)
其实就是
P(患病|阳性)=P(阳性|患病)*P(患病)/P(阳性)
同时,根据P(B)=P(A,B)+P(A^{C},B)=P(B|A)P(A)+P(B|A^{C})P(A^{C}) *A^{C}为A的补集。
则P(阳性)=P(阳性|患病)*P(患病)+P(阳性|不患病)*P(不患病),故
P(患病|阳性)=P(阳性|患病)*P(患病)/(P(阳性|患病)*P(患病)+P(阳性|不患病)*P(不患病) )
总而言之,在全国总人口患病概率为1%的前提下,某人即便被诊断为阳性,患病的概率也只是9%,还需要再去医院检查确诊。同时这个案例也告诉我们,如果是自己被诊断出重大疾病,即便诊断的准确性是99%,如果全国范围内患该病的人比率极少,还是需要去二次诊断,以免误诊。