bayes定理原理及用途


以下内容转载自:
作者:陈之炎
链接:https://www.zhihu.com/question/59924856/answer/2340156664
来源:知乎


1. 概述

  • 贝叶斯定理是统计学最为强大的概念之一,为数据科学专业人员必备知识
  • 熟悉贝叶斯定理及其工作原理,掌握其多种应用
  • 本文中给出大量直观的例子来把握“贝叶斯”定理的精髓

2. 简介

概率是数据科学算法的核心。事实上,许多数据科学问题的解决方案在本质上归于概率问题,因此我建议首先重点学习统计和概率,然后跳入算法。

然而许多有抱负的数据科学家却在规避统计学,尤其是贝叶斯统计,对于他们来说,贝叶斯统计太高深莫测了,我敢肯定你们中的很多人对贝叶斯都感同身受!

贝叶斯统计是由托马斯·贝叶斯创建的,他是生活在十八世纪期间的一个僧侣。经由多个世纪后,我们仍然在学习他创建的理论,这表明他的理论的影响非常之大!由于贝叶斯定理能够解决复杂的数据科学问题,所以在全球领先的大学里仍在教授贝叶斯理论。

在这里插入图片描述

本文将详细探讨贝叶斯定理及其在朴素贝叶斯分类器和判别函数中的应用,文中有很多内容有待解包,我们这就开始吧!

3. 预备知识

在深入研究贝叶斯定理之前,需要了解一些概念,这些概念本质上是理解贝叶斯定理的预备知识。

3.1 实验

当听到“实验”这个单词时,你头脑中浮现出的第一幅图像是什么?大多数人,包括我在内,首先想到的是一个充满试管和烧杯的化学实验室。概率论中实验的概念也类似:

An experiment is a planned operation carried out under controlled conditions.

实验是在受控条件下进行的有计划的操作。
诸如:抛掷硬币,掷骰子,从一副洗好的扑克牌中抽出一张牌,这些操作都是实验。
在这里插入图片描述

3.2 贝叶斯定理是什么?

在这里插入图片描述

你看过流行的电视剧《夏洛克》(或其他犯罪恐怖片节目)吗?想想吧,我们关心的是关于罪犯在整个事件中发生的变化,我们会在每个步骤中处理新的证据并改进假设。这便是真实生活中的贝叶斯定理!

现在,让我们从数学上理解这一点。这并不难,因为先前我们已经打好基础了。

考虑A和B是来自样本空间S的任何两个事件,其中P(B) ≠ 0。利用对条件概率的理解,得到:

P ( A ∣ B ) = P ( A ∩ B ) / P ( B ) P(A|B) = P(A ∩ B) / P(B) P(AB)=P(AB)/P(B)
Similarly, P ( B ∣ A ) = P ( A ∩ B ) / P ( A ) P(B|A) = P(A ∩ B) / P(A) P(BA)=P(AB)/P(A)
It follows that P ( A ∩ B ) = P ( A ∣ B ) ∗ P ( B ) = P ( B ∣ A ) ∗ P ( A ) P(A ∩ B) = P(A|B) * P(B) = P(B|A) * P(A) P(AB)=P(AB)P(B)=P(BA)P(A)
Thus, P ( A ∣ B ) = P ( B ∣ A ) ∗ P ( A ) / P ( B ) P(A|B) = P(B|A)*P(A) / P(B) P(AB)=P(BA)P(A)/P(B)

这就是贝叶斯定理。

这里,P(A)和P(B)是彼此独立地事件A和B的概率,我们可以称它们为边缘概率。P(B|A)和P(A|B)是条件概率。P(A)称为先验概率,P(B)称为标准化常量Evidence

P ( B ) = P ( B ∣ A ) ∗ P ( A ) + P ( B ∣   A ) ∗ P (   A ) P(B) = P(B|A)*P(A) + P(B|~A)*P(~A) P(B)=P(BA)P(A)+P(B A)P( A)

式中,P(B, x, A)称为可能性,P(A, x, B)称为后验概率

在这里插入图片描述

3.3 贝叶斯定理的一个案例

让我们用贝叶斯定理来解决一个实际问题,它将有助于理解和可视化它的应用。下面将以一个例子为例,相信几乎所有人在学校都见过这个例子。

有3个标有A、B和C的盒子:

  • A盒中有2个红球和3个黑球
  • B盒中有3个红球和1个黑球
  • C盒中有1个红球和4个黑球

这是三个完全相同的盒子,被选中的概率相等。假设拿到了一个红球。那么这个红球从A盒子中被选出的概率是多少?
在这里插入图片描述

4. 贝叶斯定理的应用

在现实世界里有很多“贝叶斯”定理的应用。不用担心这些难以理解的数学公式,只要了解它的工作原理即可。

Bayesian Decision Theory is a statistical approach to the problem of pattern classification. Under this theory, it is assumed that the underlying probability distribution for the categories is known. Thus, we obtain an ideal Bayes Classifier against which all other classifiers are judged for performance.

贝叶斯决策理论是解决模式分类问题的一种统计方法。在此理论下,假定各类别的潜在概率分布是已知的,可以得到一个理想的贝叶斯分类器,所有其他分类器都根据它来进行性能判断。

下面将讨论贝叶斯定理的三个主要应用:

  • 朴素贝叶斯分类器
  • 判别函数和决策面
  • 贝叶斯参数估计

每个应用的细节如下:

4.1 朴素贝叶斯分类器

这可能是贝叶斯定理最著名的应用,甚至可能是功能最为强大的应用,在机器学习中,会遇到很多朴素贝叶斯算法。

朴素贝叶斯分类器是基于贝叶斯定理的概率分类器集合,这些分类器的基本假设为:用于分类的所有特征彼此独立。为什么称之为“朴素”,因为我们很难获得完全独立的特征。

这些分类器工作的方式正如图所示,假设许多特征之间彼此独立。

这里,需要求出概率P(Y|X),其中X是分量为相互独立的n维随机变量 X 1 , X 2 , … . , X n X_1, X_2, …., X_n X1,X2,.,Xn;

4.2 判别函数和决策面

这个术语不难解释,利用判别函数来“判别”出它是否属于相关类。让我们来举个例子!

如果你探究过机器学习中的分类问题,可能会遇到支持向量机(SVM)。支持向量机算法通过寻找微分超平面对向量进行分类,实现训练样本的最优分离。这个超平面可以是线性的,也可以是非线性的:

在这里插入图片描述

这些超平面是决策面,超平面的方程便是我们的判别函数。可以参考支持向量机的相关文章。它非常具体,还包括R语言和Python语言的代码。

现在可以正式讨论这个话题啦。

w 1 , w 2 , … . . , w c w_1, w_2, ….., w_c w1,w2,..,wc表示可以被分类为的C类的数据向量x,则判定规则变为:

Decide w_i if g_i(X) > g_j(X) for all j ≠ i

函数g_i(X),i=1,2,…,c,被称为判别函数,它将向量空间划分为c个决策区域- R_1, R_2, …., R_c,对应于每个c类的R_c,这些区域的边界称为决策面或边界。

如果g_i(X)=g_j(X)是c判别函数中的最大值,则向量X分类为w_i和w_j为不确定,此时,称 X位于决策边界或决策面上。

查看下图:
在这里插入图片描述

这个概念很酷,对吧?二维向量空间被分割为两个决策区域R_1和R_2,被两条双曲线分割。

现在,考虑一个具有w1和w2类的二分类情况, “最小错误率分类”决策规则如下:

Decide w_1 if P(w_1|X) > P(w_2|X), otherwise decide w_2
with P(error|X) = min{P(w_1|X), P(w_2|X)}

P(w_i|X)是条件概率,可以用贝叶斯定理计算出来,为此,可以从可能性和优先级两个方面重申决策规则,得到:

Decide w_1 if P(X|w_1)*P(w_1) > P(X|w_2)*P(w_2), otherwise decide w_2

注意,分母上的“Evidence”常量仅用于缩放,可以从决策规则中忽略它。

判别函数的选择为:

g_i(X) = P(X|w_i)*P(w_i) OR
g_i(X) = ln(P(X|w_i)) + ln(P(w_i))

二分类问题通常可以使用单个判别函数进行分类。

g(X) = g_1(X) - g_2(X)
= ln(P(X|w_1) / P(X|w_2)) + ln(P(w_1) / P(w_2))

Decide w_1, if g(X) > 0
Decide w_2, if g(X) < 0
if g(X) = 0, X lies on the decision surface.

在这里插入图片描述

在上图中,g(X)是二维向量X中的线性函数,然而,决策边界也可能会更复杂:

在这里插入图片描述

4.3 贝叶斯参数估计

这是贝叶斯定理的第三个应用。我们将利用单变量高斯分布和一些数学知识来理解这一点。如果看上去很复杂,别担心-我已经把它分解成容易理解的术语了。

你一定听说过超级流行的IMDb前250名,它是一份包括250部历史上排名最高的电影的名单。“肖申克的救赎”排名第一,评级为9.2/10。

在这里插入图片描述

那么这些评级是如何计算的?IMDb使用的原始公式声称使用了 “真贝叶斯估计”。该公式自变更后再未公开披露过。尽管如此,以下是先前用到的公式:
在这里插入图片描述

最终评级W为R和C的加权平均值,其中权重为V, m是先验估计。

  • 随着票数的增加,v增加并超过m,所需的最低票数,W,接近电影的直线平均值,
  • 随着V趋近于零(电影的票数较少),W接近所有影片的平均等级,C

We generally do not have complete information about the probabilistic nature of a classification problem. Instead, we have a vague idea of the situation along with a number of training examples. We then use this information to design a classifier.

关于分类问题的概率性质,我们通常无法获得完整的信息。但是,我们对情况有一个模糊的认识,还有一些训练实例,通常可以利用这些信息来设计一个分类器。

**基本思想是:已知一个潜在的概率分布。**为此,使用参数向量Θ来描述它。例如,高斯分布可以用Θ = [μ, σ²]来描述。

在这里插入图片描述

然后,需要估计出这个向量,通常以两种方式实现:

  • 最大似然估计(MLE):假设潜在的概率分布p(Θ)有一个未知但固定的参数向量,最佳估计使似然函数最大化:
  • p(D|θ) = p(x1|θ) * p(x2|θ) * …* p(xn|θ) = Likelihood of θ with respect to the set of samples D

建议阅读此链接中的文章,来获得最大似然估计的直观而深入的解释,附有R语言的案例研究。

  • 贝叶斯参数估计-在贝叶斯学习中,假定Θ是一个随机变量,而不是MLE中的“未知但固定”值,然后利用训练示例将这个变量上的分布转换成后验概率密度。

可以简单将其写成:

P(Θ|data) = P(data|Θ)*P(Θ) / P(data), where data represents the set of training examples

5. 必须掌握的要点:

假设概率密度函数p(x)(按照该概率规则抽取的样本)是未知,但是具有已知的参数形式,为此,可以说p(X|Θ)是完全已知的。
Θ可能拥有的任何现有信息都包含在已知的先验概率密度p(Θ)中。
利用训练样本来找出后验密度函数p(Θ|data),这个函数在Θ中的真值中达到峰值。

6. 贝叶斯参数估计的演示-单变量高斯用例

下面来演示贝叶斯参数估计是如何工作的,这将进一步明晰刚才所涵盖的理论。

首先,假设均值为μ,方差为σ² 的正态分布p(X),其中μ是期望估计出来的唯一未知参数。然后:

p(X|Θ) = p(X|μ) ~ N(μ, σ²)

这里会用到的数学知识:假设先验概率密度函数p(μ)也是正态分布的,均值为µ’,方差为 σ 2 σ^2 σ2(二者均为已知)。

在这里,p(Θx-data)=p(μ_s_data)称为再生密度,p(Θ)=p(μ)称为共轭先验

7. 后记

“贝叶斯”定理的美和力量让我感到如此的美丽和神奇。由一位在250年前去世的僧侣给出的这个简单概念,在当今的最著名的机器学习技术中都有它的应用。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值