白手起家学习数据科学 ——Probability之“Bayes's 原理和随机变量篇”(四)

贝叶斯原理(Bayes’s Theorem)

数据科学家最好的朋友之一是Bayes’s(贝叶斯)原理,它是”倒转”条件概率(conditional probabilities)的应用。现在我们要知道在事件F发生的条件下事件E的概率,但是现在我们只有事件E发生的条件下事件F发生的概率,使用2次条件概率可得:

P(E|F) = P(E,F)/P(F) = P(F|E)P(E)/P(F)

事件F能分成互相排斥的2个事件”F and E”和”F and not E”,如果我把¬E写成”not E”(例如,E不发生),那么:

P(F) = P(F,E) + P(F,¬E)

那么:

P(E|F) = P(E,F)/P(F) = P(F|E)P(E)/[P(F|E)P(E) + P(F|¬E)P(¬E)]

这个就是Bayes’s原理的常见表达方式。

这个原理经常被使用来证明为什么数据科学家比医生聪明。假设10000个人中有1个人会得某种疾病,检测这种疾病的正确率(如果有疾病,检测出来疾病;没有疾病,检测出来没有疾病)为99%。

事件T表示”测试为阳性(患病)”,事件D表示”你患上疾病”,那么贝叶斯原理说的是:在测试结果为阳性的条件下,你得疾病的概率为:
P(D|T) = P(D,T)/P(T) = P(T|D)P(D)/[P(T|D) + P(T|¬D)] = P(T|D)P(D)/[P(T,D)/P(D) + P(T,¬D)/P(¬D)]

患上这种疾病的条件下正确检测出的概率P(T|D) = 0.99;任何得上这种病的人概率P(D) = 0.0001;没有得上这种病的人为条件下,结果检测出来为阳性的概率P(T|¬D) = 0.01,任何没有得上这种病的人为P(¬D) = 0.9999。如果你使用这些数字替换到上面的公式中,你会得到:
P(D|T) = 0.98%
即,少于1%的人检测为阳性的条件下患此疾病的人。

notice:这个例子假设人们是随机进行这种检测的。如果有某种症状的人才进行检测,代替我们的条件事件为”positive test and symptoms”,那么我们得到的数会更大。

随机变量

随机变量是一个关联着概率分布的变量,一个非常简单的随机变量是:如果抛一枚硬币头朝上则变量为1,朝下则变量为0。一个更加复杂的随机变量:测量抛一枚硬币10次得到头朝上的数量。

关联的概率分布指的是给出变量每个可能取值的概率。抛一枚硬币等于0的概率为0.5,等于1的概率为0.5。

有时我们讨论一个随机变量的期望值,”可能取值”加权(使用每个取值的概率作为权重)和作为期望值(expected value)。抛硬币的随机变量期望值为1/2(=0*1/2 + 1*1/2)。

随机变量也可以是基于条件的,回到上一章节中关于2个孩子的例子,如果X表示女孩数量的随机变量,X = 0的概率1/4,等于1的概率1/2,等于2的概率1/4。我们能定义一个新的随机变量Y:至少有一个女孩的条件下,有多少女孩。Y = 1的概率2/3,等于2的概率为1/3。随机变量Z:第二个孩子是女孩的条件下,有多少女孩。Z = 1的概率为1/2,等于2的概率1/2。
大多数情况下,我们暗中使用随机变量,不会刻意注意他们,但是如果你深入观察,你就会发现他们的存在。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值