托马斯·贝叶斯牧师(1702-1761)最有名的论文就是在他身后于1763年发表在伦敦皇家学会哲学学报上的那一篇《论有关机遇问题的求解》。
贝叶斯定理是计算概率的一种方法,即认为一个事件会不会发生取决于该事件在先验分布中已经发生过的次数。
贝叶斯定理指出,对于事件 X和Y,已知Y的概率时X发生的概率(用p{X|Y}表示)等于已知X的概率时Y发生的概率(用p{Y|X}表示)乘以X的概率(p{X})再除以Y的概率(p{Y})。或者用公式表述如下:
p{X|Y}=p{X}×p{Y|X}/p{Y}
这一公式更常用的表述为
明白吗?不明白?好,让我们将其应用到IT世界。
假设我们要维护一个有3个配置选项的软件包—我们的用户中用到A选项的有40%,用到B选项的有30%,用到C选项的有30%(假定用户每个时刻只能使用一种选项)。
如果我们假设每个选项可能导致的技术支持请求的百分比是一样的,比如说每个选项发生支持请求的用户数都是1%,那么很明显,我们就将根据发生支持请求用户数最多的那个选项去集中人力对其加以改进,在此假定情形下,这意味着我们可能应该集中人力去改进A选项,然后才会去改进B或C选项。
但是在此情形下的支持请求比率完全是假设的。如果我们通过对该软件包支持经验的不断积累发现,A选项用户出现问题的比率为0。5%,B用户为0。75%而C用户为0。95%。那么现在我们的人力该投向哪个选项呢?
让我们来计算一下由于A选项而发生一个问题的概率(用p{A|问题})实际上为多少。
根据贝叶斯定理:
p{A|问题}=p{A}×p{问题|A}/(p{A}×p{问题|A}+p{B}×p{问题|B}+p{C}× p{问题|C})
这里,p{A}等于40%;p{B}等于30%;p{C}等于30%。而从我们的支持经验积累中已知p{问题|A}等于0。
5%,p{ 问题|B}等于0。75%而p{问题|C}等于0。95%,于是有:
进行同样的计算可以算出在其他选项下的p{B|问题}等于32%和p{C|问题}等于40%。
现在我们就知道了应该将我们的人力集中起来去改进C选项。酷吧,嗯哼?假定我们改进了C选项使得p{问题|C}下降到0。
05%,这就意味着现在p{C|问题}等于3% 而p{A|问题}变成了45%,p{B|问题}变成了51%。
贝叶斯理论是非常令人着迷的、强大的工具,当我们需要处理多个变量系统的时候尤其有用。正因为如此,贝叶斯理论已经成为垃圾邮件过滤系统的基础。
全部