系统学习机器学习之参数方法（二）_p(x)是用于归一化的“证据”因字-CSDN博客

本文链接：https://blog.csdn.net/App_12062011/article/details/47275217

本文详细解读了贝叶斯决策与贝叶斯估计的原理，通过实例说明了如何使用贝叶斯公式进行决策。此外，文章还深入探讨了贝叶斯估计在小样本情况下的应用，包括其基本思路、贝叶斯定理、损失函数以及线性单方程计量经济学模型的贝叶斯估计方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、贝叶斯决策

现在举一个例子说明怎么使用贝叶斯公式来做决策。

例子：

假设有100个人，每个人都有自己的生日。1年有12个月，假设这100个人的生日从1月到12月的人数的分布情况如下：

3 4 5 7 10 13 14 15 12 8 5 4

那么1月到12月生人所占的比率分别为：

0.0300 0.0400 0.0500 0.0700 0.1000 0.1300 0.1400 0.1500 0.1200 0.0800 0.0500 0.0400

把数据放入matlab中：

用matlab绘制看着更直观：

这个rate1数组就是概率密度函数了,它满足两个条件：大于0且积分为1(因为sum(rate1)=1，见matlab命令行截图)。

现在，假设刚才的那100个人是北半球的样本。现在再收集南半球的100个人的生日作为样本。

1到12月生人的分布情况为：

15 12 9 6 4 3 4 5 7 9 12 14

那么1月到12月生人所占的比率分别为：

0.1500 0.1200 0.0900 0.0600 0.0400 0.0300 0.0400 0.0500 0.0700 0.0900 0.1200 0.1400

计算总和

画出曲线如下：

显然，rate2曲线可以作为南半球数据的概率密度函数，因为rate2（x）>0且sum(rate2)=1。

将南半球人民的生日概率密度曲线和北半球人民的概率密度分布曲线放到一起。

（这个例子整得有点极端了，说明问题就好……orz）

假设一个人为北半球人民这个事件为ω₁，一个人为南半球人民这个事件为ω₂，显然一个地球人要么是南半球的要么是北半球的，所以P(ω₁)+P(ω₂)=1

那现在再来查查看南半球人民和北半球人民的比例是多少呢？谷歌之

忽略掉那些不需要的信息，我们得出P(ω₁)/P(ω₂)=9：1

也就是说，P(ω₁)=0.9，P(ω₂)=0.1

所以，在我们的例子可以抽象为：

特征值为”生日“，及生日=x。

p(x|ω₁)=rate1（红色的曲线）,p(x|ω₂)=rate2（蓝色的曲线）

（红色曲线和蓝色曲线的来历已经介绍了）

且先验概率P(ω₁)=0.9，P(ω₂)=0.1

那么现在要求贝叶斯公式的分母，即证据因子。

根据公式

知 p(x)=p(x|ω₁)P(ω₁)+p(x|ω₂)P(ω₂)

现在，假如我们在google+上遇到一个好友，只知道他生日是6月，那怎么猜测这位好友是来自南半球还是北半球呢？？

噔噔噔噔，贝叶斯公式上场了！！

公式右侧的参数我们都已经知道了，现在就可以求左边的数了。

生日是6月也就是说x=6

所以以x为变量的p(ω₁|x)、p(ω₂|x)以及p(x)都可以求了，分别为

p(x|ω₁)=rate1(6)=0.1300

p(x|ω₂)=rate2(6)= 0.0300

p(x)=p(x|ω₁)P(ω₁)+p(x|ω₂)P(ω₂)=0.13*0.9+0.03*0.1=0.12

∴P(ω₁|x)=p(x|ω₁)P(ω₁)/p(x)=0.13*0.9/0.12=0.975

P(ω₂|x)=p(x|ω₂)P(ω₂)/p(x)=0.03*0.1/0.12= 0.0250

所以这位神秘的好友有97.5%的可能性是来自北半球的，只有2.5%的可能性是来自南半球。

我们可以设定这样的判决规则：

” 如果P(ω₁|x)>P(ω₂|x),则判决为ω₁类，否则为ω₂类 “

也就是说，如果我们”大胆假设“这位友人来自北半球，那么我们的猜测出错的概率就是

P(error|x) = MIN[P(ω₁|x),P(ω₂|x)] = 0.025

-----------------------------------------------------

后记：

从上述例子中可以看出，证据因子p(x)其实对做出某种判决并不重要，它仅仅是一个标量，用来表示一种比例，即表示我们实际测量的具有特征值x的模式的出现频率。如果把它去掉，也可以讲判决规则改为

” 如果p(x|ω₁)P(ω₁)>p(x|ω₂)P(ω₂),则判决为ω₁类，否则为ω₂类 “

用贝叶斯公式来帮助做决策的大概思路就是计算出某个特征值为x的待测样本属于各个不同类别的可能性，然后根据判决规则，选择概率最大（即可能性最大）的一个作为决策的结果。

在上面已经举例说明了如何用贝叶斯公式计算后验概率，然后依据后验概率来做决策。

1、什么是行为？

但是，有时候，后验概率本身只能说明具有特征x的样本属于ω_i类的可能性有多少，却没能表示如果将样本分到ω_i类时的代价有多大。

在此，引入行为的概念。

分类器的设计初衷很简单，就是进行“分类”这一动作。假设现在来了一个具有特征x的样本，如果将“把样本分入ω_i类”这一行为记为动作a_i的话，我们将有不少于类别种类（假设有c类）的行为（因为除了将样本分入不同类别外，还可能拒绝作出判断，因此动作集的大小一般大于类别种类）。

2、什么是风险？

为方便说明，令{ω₁,...,ω_c}表示有限个类别集，{a₁,...,a_a}表示有限的a中可能采取的动作集，风险函数λ(a_i|ω_j)描述类别状态为ω_j时采取行动a_i所产生的风险。（行为导致风险，不同的行为也会使风险的大小不同）

3、什么是损失函数？

已知使用【贝叶斯公式】可以通过先验概率P(ω_j)、概率密度函数（似然函数）p(x|ω_j)以及证据因子p(x)可以求出后验概率P(ω_j|x)：

假设，样本具有特征值x，并且我们将采取a_i行动，而样本的真是归属类别为ω_j，那么将可能造成损失λ(a_i|ω_j)，而贝叶斯公式求出的后验概率P(ω_j|x)表示了特征值为x时，样本属于类别ω_j的概率，因此，与行为a_i相关的损失为：

R(a_i|x)称为与行为a_i相关的损失函数。计算损失函数可以展开为以下步骤：

step 1：通过将特征值、似然函数、先验概率带入贝叶斯公式，求出具有特征值x的样本分属各个不同类别的可能性（后验概率）。

step 2：将样本属于各个不同类别的可能性乘上将样本误判到这一类别所需付出的代价。

step 3：将step2的结果相加即可得出对具有特征值x的样本进行a_i操作所可能产生的损失。

显然，要计算损失函数，则先验概率、似然函数、风险函数都必须是已知的。

注意，风险函数是λ(a_i|ω_j)，损失函数（也称条件风险）是R(a_i|x)，两者是不同的。

4、什么是贝叶斯决策规则？

为了最小化总风险，对所有的i=1,...,a计算条件风险R(a_i|x)，并选择行为a_i使R(a_i|x)最小化。最小化后的总风险值称为贝叶斯风险，记为R^*，它是可获得的最优风险。那么，为什么贝叶斯决策规则所得出的风险是最小的呢？

假设判决规则为函数a(x)，它用来说明对于特征值x应采取哪种行为(即，a₁,...,a_a中选择哪个行为)。如果有一种规则，使得损失函数R(a_i|x)对每个特征值x都尽可能的小，那么对所有可能出现的特征值x，总风险将会降到最小。

而这一理想的规则就是贝叶斯决策：

“对所有的i=1,...,a计算条件风险R(a_i|x)，并选择行为a_i使R(a_i|x)最小化”

通俗的说，就是对特征值x，计算所有行为所导致的损失们（即把R(a₁|x),...,R(a_a|x)都算出来），然后从中选择损失最小的一个a_k作为结果，这样对于每个样本，都可以做的损失最小。假设有一批样本，其中的每一个都做到损失最小的话，对这一批样本而言，总体的损失就是最小的了。

不过这是一种非常理想的情况，通常是没有那么多已知条件的（实际情况中很少出现如此理想的情况）。不过贝叶斯决策理论倒是为我们提供了一个与其他分类器做对比的评价依据，也就是说贝叶斯决策很多情况下是作为对比对象而存在的。

下面是贝叶斯分类器：

http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html

二、贝叶斯估计

贝叶斯（Bayes）统计是由T. R. Bayes于19世纪创立的数理统计的一个重要分支，20世纪50年代，以H. Robbins为代表提出了在计量经济学模型估计中将经验贝叶斯方法与经典方法相结合，引起了广泛的重视，得到了广泛的应用。贝叶斯估计对经典计量经济学模型估计方法的扩展在于，它不仅利用样本信息，同时利用非样本信息。

（1）贝叶斯估计

在经典计量经济学模型中广泛采用的最小二乘估计，以及本章讨论的最大似然函数估计和广义矩估计的一个共同特征是，在模型估计中只利用样本信息和关于总体分布的先验信息，而关于分布的先验信息仍然需要通过样本信息的检验，所以说到底还是样本信息。

由于模型估计依赖样本信息，这就要求样本信息足够多，因此，这些估计只有在大样本情况下才具有一定的优良性质。但是在许多实际应用研究中，人们无法重复大量的实验以得到大量的观测结果，只能得到少量的观测结果。在小样本情况下，最小二乘估计、最大似然估计和广义矩估计不再具有优良性质。因而，人们不得不寻求小样本情况下的优良估计方法。贝叶斯估计方法就是其中之一。

a、贝叶斯方法的基本思路

贝叶斯方法的基本思路是：假定要估计的模型参数是服从一定分布的随机变量，根据经验给出待估参数的先验分布（也称为主观分布），关于这些先验分布的信息被称为先验信息；然后根据这些先验信息，并与样本信息相结合，应用贝叶斯定理求出待估参数的后验分布；再应用损失函数，得出后验分布的一些特征值，并把它们作为待估参数的估计量。

贝叶斯方法与经典估计方法的主要不同之处是：

（a）关于参数的解释不同

经典估计方法认为待估参数具有确定值，它的估计量才是随机的，如果估计量是无偏的，该估计量的期望等于那个确定的参数；而贝叶斯方法认为待估参数是一个服从某种分布的随机变量。

（b）所利用的信息不同

经典方法只利用样本信息；贝叶斯方法要求事先提供一个参数的先验分布，即人们对有关参数的主观认识，被称为先验信息，是非样本信息，在参数估计过程中，这些非样本信息与样本信息一起被利用。

（c）对随机误差项的要求不同

经典方法，除了最大似然法，在参数估计过程中并不要求知道随机误差项的具体分布形式，但是在假设检验与区间估计时是需要的；贝叶斯方法需要知道随机误差项的具体分布形式。

（d）选择参数估计量的准则不同

经典估计方法或者以残差平方和最小，或者以似然函数值最大为准则，构造极值条件，求解参数估计量；贝叶斯方法则需要构造一个损失函数，并以损失函数最小化为准则求得参数估计量。

b、贝叶斯定理

贝叶斯定理与贝叶斯估计 - 杰迪武士 - The Temple of JeDi

c、损失函数

常用的损失函数有线性函数和二次函数，不同的损失函数，得到的参数估计值是不同的。

（2）线性单方程计量经济学模型的贝叶斯估计

以正态线性单方程计量经济学模型为例介绍贝叶斯估计方法。选择正态线性单方程计量经济学模型的主要原因是：（1）多元线性单方程计量经济学模型具有普遍性意义；（2）在模型设定正确的情况下，随机误差项是大量随机扰动之总和，根据中心极限定理，可以认为它是渐近正态分布；（3）计算简单，使用方便，并能完整地体现贝叶斯估计方法的主要内容。正态线性单方程计量经济学模型又分为随机误差项方差已知和方差未知两种情况。作为贝叶斯估计方法的演示，我们只讨论方差已知的情况。

a、有先验信息的后验分布

贝叶斯定理与贝叶斯估计 - 杰迪武士 - The Temple of JeDi