数据挖掘——贝叶斯公式与朴素贝叶斯分类
1. 条件概率
条件概率(又称后验概率)就是事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为P(A|B),读作“在B条件下A的概率”。
比如,在同一个样本空间Ω中的事件或者子集A与B,如果随机从Ω中选出的一个元素属于B,那么这个随机选择的元素还属于A的概率就定义为在B的前提下A的条件概率,所以:P(A|B) = |A∩B|/|B|,接着分子、分母都除以|Ω|得到:
P(A|B)是在B发生的情况下A发生的可能性。
- 首先,事件B发生之前,我们对事件A的发生有一个基本的概率判断,称为A的先验概率,用P(A)表示;
- 其次,事件B发生之后,我们对事件A的发生概率重新评估,称为A的后验概率,用P(A|B)表示;
- 类似的,事件A发生之前,我们对事件B的发生有一个基本的概率判断,称为B的先验概率,用P(B)表示;
- 同样,事件A发生之后,我们对事件B的发生概率重新评估,称为B的后验概率,用P(B|A)表示;
2. 联合概率、边缘概率
边缘概率(先验概率)(prior probability)是指根据以往经验和分析得到的概率。
联合概率表示两个事件共同发生的概率。A与B的联合概率表示P(A∪B)或者P(A,B)。
边缘概率是这样得到的:在联合概率中,把最终结果中那些不需要的事件通过合并成它们的全概率,而消去它们(对离散随机变量用求和得全概率,对连续随机变量用积分得全概率),这称为边缘化(marginalization),比如A的边缘概率表示为P(A),B的边缘概率表示为P(B)。
3. 贝叶斯定理
上述直接给出贝叶斯公式,关于条件概率和先验概率已经给出解释,不再说明。
似然函数: p(B|A)为A关于B的似然函数,也成为类条件概率密度函数,表明类别状态为A时的B的概率密度函数。
证据因子: 证据因子的存在只是为了保证各类别的后验概率的总和为1。
推导:
根据条件概率的定义,在事件B发生的条件下事件A发生的概率是
同样地,在事件A发生的条件下事件B发生的概率
整理与合并上述两个方程式,便可以得到: