概率基础及贝叶斯决策理论

最新推荐文章于 2024-07-27 10:31:18 发布

liaochengyu_uestc

最新推荐文章于 2024-07-27 10:31:18 发布

阅读量418

点赞数

分类专栏： Machine Learning Pattern Recognition 文章标签：模式识别

本文链接：https://blog.csdn.net/liao_uestc/article/details/78242728

版权

Machine Learning 同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

Pattern Recognition

1 篇文章 0 订阅

订阅专栏

- 引言
- 概率基础

贝叶斯分类算法是统计学的一种分类方法，它是一类利用概率统计知识进行分类的算法。在许多场合，朴素贝叶斯(Naive Bayes，NB)分类算法可以与决策树和神经网络分类算法相媲美，该算法能运用到大型数据库中，而且方法简单、分类准确率高、速度快。但由于该算法以自变量之间的独立（条件特征独立）性和连续变量的正态性假设为前提，就会导致算法精度在某种程度上受影响,以上信息来自百度百科。

引言

问题：张三是男生还是女生？简单的两类决策问题。
1. 在没有任何信息的情况下，根据类别的先验知识进行判断
2. 根据对张三的观测现象(扎马尾，穿裙子)进行推断

目标（事物）的观察值是随机的，服从一定的概率分布。即：模式不是一个确定向量，而是一个随机向量。

概率基础

条件概率

条件概率（conditional probability）就是事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为P（A|B），读作“在B条件下A的概率”。在有的时候也叫做后验概率,如下图可知：

P (A | B) = P ( A \cap B ) P ( B )

$P(A|B)={\frac {P(A\cap B)}{P(B)}}$
即：

P (A \cap B) = P (A | B) P (B)

${P(A\cap B)}=P(A|B){{P(B)}}$
同理可得：

P (A \cap B) = P (B | A) P (A)

${P(A\cap B)}=P(B|A)P(A)$
因此：

P (B | A) P (A) = P (A | B) P (B)

$P(B|A)P(A)=P(A|B){{P(B)}}$
即：

P (A | B) = P ( B | A ) P ( B ) P (A)

$P(A|B)={\frac{P(B|A)}{P(B)} }P(A)$

全概率公式

全概率公式为概率论中的重要公式，它将对一复杂事件A的概率求解问题转化为了在不同情况下发生的简单事件的概率的求和问题。如下图，假设S空间划分为B1、B2……Bn，一共n个部分。

因此，

P (A) = P (A \cap B 1) + P (A \cap B 2) + \dots + P (A \cap B n)

$P(A)=P(A \cap B_1)+P(A \cap B_2)+…+P(A \cap B_n)$
而有前面的条件概率可以进一步得到：

P (A) = P (A | B 1) P (B 1) + P (A | B 2) P (B 2) + \dots + P (A | B n) P (B n) = \sum i = 1 n P (A | B i) P (B i)

$\begin{split} P(A) &=P(A|B_1){{P(B_1)}}+P(A|B_2){{P(B_2)}}+…+P(A|B_n){{P(B_n)}}\\ &=\sum_{i=1}^{n}{P(A|B_i){{P(B_i)}}} \end{split}$
这就是全概率公式，详细可参考全概率公式百度百科。

贝叶斯公式

对条件概率公式进行变形，可以得到如下形式：

P (A | B) = P ( B | A ) P ( B ) P (A)

$P(A|B)={\frac{P(B|A)}{P(B)} }P(A)$

我们把 $P(A)$ 称为”先验概率”（Prior probability），即在B事件发生之前，我们对A事件概率的一个判断。
$P(A|B)$ 称为”后验概率”（Posterior probability），即在B事件发生之后，我们对A事件概率的重新评估。
$P(B|A)/P(B)$ 称为”可能性函数”（Likelyhood），这是一个调整因子，使得预估概率更接近真实概率。
因此，条件概率可以理解成下面的式子：后验概率=先验概率x调整因子

这就是贝叶斯推断的含义。我们先预估一个”先验概率”，然后加入实验结果，看这个实验到底是增强还是削弱了”先验概率”，由此得到更接近事实的”后验概率”。在这里，如果”可能性函数” $P(B|A)/P(B)>1$ ，意味着”先验概率”被增强，事件A的发生的可能性变大；如果”可能性函数” $=1$ ，意味着B事件无助于判断事件A的可能性；如果”可能性函数” <1 <script type="math/tex" id="MathJax-Element-14"><1</script>，意味着”先验概率”被削弱，事件A的可能性变小。