贝叶斯决策、朴素贝叶斯、贝叶斯估计

最新推荐文章于 2024-08-29 12:23:03 发布

饺子醋

最新推荐文章于 2024-08-29 12:23:03 发布

阅读量3.1k

点赞数 8

分类专栏： machine learning algorithm 文章标签：贝叶斯决策贝叶斯估计朴素贝叶斯最小风险最小错误率

本文链接：https://blog.csdn.net/coderTC/article/details/78569236

版权

machine learning 同时被 2 个专栏收录

8 篇文章 3 订阅

订阅专栏

algorithm

8 篇文章 0 订阅

订阅专栏

概述
- 贝叶斯公式
贝叶斯决策
朴素贝叶斯
贝叶斯估计
说明

概述

在日常学习之中，我们经常能见到各种带有“贝叶斯”的词语，例如贝叶斯决策、朴素贝叶斯、贝叶斯估计，有时就会在诸如机器学习或者模式识别的课程上遇到它们中的一两个，学习的时候能把其中某个弄得清清楚楚，时间一长，反而这几个就有些混淆了，因此，集中进行学习整理。

总结来说，朴素贝叶斯包含于贝叶斯决策，贝叶斯决策与贝叶斯估计的任务不同，它们都是基于贝叶斯定理去解决不同的问题；贝叶斯决策任务在于学习一个分类器，贝叶斯估计的目的在于学习概率模型中的参数。

贝叶斯公式

通过一个例子来说明贝叶斯公式——癌细胞的识别，假设每个癌细胞经过预处理抽取出 $d$ 个细胞基本特征，成为一个 $d$ 维的向量 $x$ ，识别的目标是将 $x$ 分类为正常细胞或者异常细胞，如果用 $w$ 表示，则

w = w 1 表 示 正 常

$w=w_1\quad\text{表示正常}$

w = w 2 表 示 异 常

$w=w_2\quad\text{表示异常}$
根据医院统计资料可以对正常细胞和异常细胞的比例做出估计，这就相当于已知正常状态的概率

P(w1） $P(w_1）$ 和异常状态的概率

P(w2) $P(w_2)$ ，这被称为先验概率。那么有：

p (x | w 1) 表 示 正 常 细 胞 特 征 观 察 x 的 类 条 件 概 率 密 度

$p(x|w_1)\quad表示正常细胞特征观察x的类条件概率密度$

p (x | w 2) 表 示 异 常 细 胞 特 征 观 察 x 的 类 条 件 概 率 密 度

$p(x|w_2)\quad表示异常细胞特征观察x的类条件概率密度$
那么有贝叶斯公式：

P (w i | x) = p ( x | w i ) P ( w i ) \sum 2 j = 1 p ( x | w j ) P ( w j )

$P(w_i|x)=\frac{p(x|w_i)P(w_i)}{\sum_{j=1}^{2}p(x|w_j)P(w_j)}$
其中

P(wi|x) $P(w_i|x)$ 为状态的后验概率。

即可以通过类别状态的先验概率和特征观察值的类条件概率密度获得类别状态的后验概率，这就是贝叶斯公式所能做到的事情。

那么假设我们拿到一个新的待分类细胞，已知它的特征向量 $x$ ，就可以通过贝叶斯公式计算在特征观察值为 $x$ 的条件下，类别状态为 $w_i$ 的概率，也就是特征观察值为 $x$ 的细胞属于类别 $w_i$ 的概率，很容易我们会想到，属于哪个类别的概率大，就把该细胞归到哪一类中去呗，这就是贝叶斯决策中的最小错误率法。

按照决策规则的不同，贝叶斯决策可以分为最小错误率贝叶斯决策和最小风险贝叶斯决策，下面分开详述。

贝叶斯决策

最小错误率贝叶斯决策

依然考虑细胞分类的问题，在介绍贝叶斯公式小节中，我们已经知道通过贝叶斯公式可以来获得特征观察值为 $x$ 的细胞属于类别 $w_i$ 的概率，然后我们只需要通过选择一个后验概率最大的类别来作为最终的判断结果。

这就是基于最小错误率的贝叶斯决策，也就是说这种决策规则会使得错误率期望最小化（仿佛是废话，废话也要证明的）。

证明：
首先应指出，错误率是指平均错误率，或者说是错误率的期望，以 $P(e)$ 来表示，其定义为：

$P (e) = \int \infty - \infty P (e, x) d x = \int \infty - \infty P (e | x) p (x) d x$ $P(e)=\int_{-\infty}^{\infty}P(e,x)dx=\int_{-\infty}^{\infty}P(e|x)p(x)dx$
其中，
$P (e | x) = {P (w 1 | x), P (w 2 | x) > P (w 1 | x) P (w 2 | x), P (w 1 | x) > P (w 2 | x)$ $P(e|x)= \begin{cases} P(w_1|x),\quad P(w_2|x)>P(w_1|x) \\ P(w_2|x),\quad P(w_1|x)>P(w_2|x) \end{cases}$
可以看到，该决策规则对每个 $x$ 始终选择 $P(e|x)$ 最小的那个，这样总的积分也必然达到最小，即平均错误率最小。

最小风险贝叶斯决策

依然考虑细胞分类的问题，考虑这么一种情景，如果医生把正常细胞判断为癌细胞则会给病人带来精神上的负担，如果把癌细胞判断为正常细胞则可能导致病人耽误了最佳的治疗时机，相比来说，后者的代价更大，此时，需要改进决策规则，以区别对待这两种情况，最小风险贝叶斯决策正是考虑各种错误的不同损失而提出的一种决策规则。

为清楚表达，我们首先定义一些符号：
1.特征的观察值 $x$ 是 $d$ 维的向量

$x = [x 1, x 2, . . ., x d] T$ $x=[x_1,x_2,...,x_d]^T$
2.状态空间 $\Omega$ 由 $c$ 个自然状态组成
$Ω = {w 1, w 2, . . ., w c}$ $\Omega=\{w_1,w_2,...,w_c\}$
3.决策空间 $\mathscr{A}$ 由 $a$ 个决策 $\alpha_i$ 组成
$A = {α 1, α 2, . . ., α a}$ $\mathscr{A}=\{\alpha_1,\alpha_2,...,\alpha_a\}$
4.损失函数为 $\lambda(\alpha_i,w_j)$ ，表示当真实状态为 $w_j$ 而采取的决策为 $\alpha_i$ 时所带来的损失

OK，符号定义结束，下面介绍基于最小风险的贝叶斯决策是怎么进行决策的，分为3步：
1.已知类别的先验概率 $P(w_j)$ ，类条件概率密度 $p(x|w_j)$ ，根据贝叶斯公式，计算后验概率：

$P (w j | x) = p ( x | w j ) P ( w j ) \sum 2 i = 1 p ( x | w i ) P ( w i ), j = 1, 2, . . ., c$ $P(w_j|x)=\frac{p(x|w_j)P(w_j)}{\sum_{i=1}^{2}p(x|w_i)P(w_i)},\quad j=1,2,...,c$
2.使用已经算出的后验概率和决策损失表（就是定义了所有的 $\lambda(\alpha_i,w_j)$ 的表），计算采取决策 $\alpha_i$ 的条件风险 $R(\alpha_i|x)$ $R (α i | x) = \sum j = 1 c λ (α i | w j) P (w j | x), i = 1, 2, \dots, a$ $R(\alpha_i|x)=\sum_{j=1}^c\lambda(\alpha_i|w_j)P(w_j|x),\quad i=1,2,…,a$ 这一步的含义是，首先你确定了采取决策 $\alpha_i$ ，然后将所有判断错误的情况下的损失进行累加，得到的损失被称为采取 $\alpha_i$ 时的风险。 3.然后在所有的决策中找出一个条件风险最小的决策，作为最终的决策 $R (α k | x) = min i = 1, 2, \dots, a R (α i | x)$ $R(\alpha_k|x)=\min\limits_{i=1,2,…,a}R(\alpha_i|x)$

把最小风险贝叶斯决策的步骤列出来，跟最小错误率贝叶斯决策的步骤对比，就很容易看出来，最小风险是最小错误率的升级版、特例。

当最小风险贝叶斯决策中的决策表满足以下条件时，最小风险退化为最小错误率：

$λ (α i, w j) = {0, α i = w j 1, e l s e$ $\lambda(\alpha_i,w_j)= \begin{cases} 0,\quad \alpha_i=w_j\\ 1,\quad else \end{cases}$

贝叶斯决策小结

贝叶斯决策是一种统计决策理论，用于设计分类器，针对分类任务。

朴素贝叶斯

朴素贝叶斯就是朴素的贝叶斯决策，就是基于特征独立假设的贝叶斯决策，也就说，朴素贝叶斯是对贝叶斯决策进一步讨论。

类条件概率密度并不是已知

依然考虑细胞分类问题，在细胞的特征中，假设有两个特征：细胞液浓度、细胞核大小；

拿到一个待检测的细胞时，医生会观察这两个特征，那么这两个特征是相互独立的吗？或者说这两个特征是互不相关的吗？是互不影响的吗？

凭借我有限的高中知识，我觉得这两个特征多半不是互相独立的？我认为细胞液的浓度可能会印象细胞核的大小，或者细胞核的大小会通过某种复杂的生理反应，影响细胞液的浓度，总之，它们两个应该不是互相独立的。

那对我们构建分类器有什么影响呢？

无论是最小错误率贝叶斯决策还是最小风险贝叶斯决策，第一步都是根据贝叶斯公式，利用先验概率和类条件概率求后验概率：

$P (w i | x) = p ( x | w i ) P ( w i ) \sum 2 j = 1 p ( x | w j ) P ( w j )$ $P(w_i|x)=\frac{p(x|w_i)P(w_i)}{\sum_{j=1}^{2}p(x|w_j)P(w_j)}$

其中 $p(x|w_i)$ 就是类条件概率密度，其中 $x$ 是个特征向量 $x=[x_1,x_2,...,x_d]^T$ ；有个严重的问题是，这个类条件概率密度我们总是假设它已知，然而真实情况是，它并非已知，而且貌似没那么好估计，因为特征向量包含多的特征，这就导致类条件概率密度函数中的参数个数为指数级别，很难进行估计。

事实上，假设特征向量 $x$ 的第 $j$ 个特征 $x_j$ 可取值有 $S_j$ 个，那么参数个数为 $c\prod_{j=1}^d S_j$ 。

“朴素”——特征独立假设

于是采用一种办法来进行简化：
假设特征向量中的各个特征之间相互独立（虽然它们未必相互独立，但是为了可行性，只好这么假设），那么就有：

$p (x | w i) = p (x 1, x 2, . . ., x d | w i) = \prod j = 1 d p (x j | w i)$ $p(x|w_i)=p(x_1,x_2,...,x_d|w_i)=\prod_{j=1}^dp(x_j|w_i)$
类条件概率密度函数的形式得到了大大地简化，本来一个拥有指数级别参数个数的类条件概率密度函数变成了很简单的累乘的形式；
单个特征的类条件概率密度 $p(x_j|w_i)$ 还是很容易估计的，例如，假设 $w_i=异常细胞$ ， $x_j=细胞液密度$ ，那么 $p(x_j|w_i)$ 就表示异常细胞中细胞液密度的概率分布，这个很好估计对吧，只需要把医院历史诊断信息中的正常细胞信息筛选出来，然后统计一下细胞液密度的分布就可以了。

获得了类条件概率密度之后，就可以进行贝叶斯决策了。

朴素贝叶斯小结

贝叶斯公式以两个已知条件为前提：
1.先验概率已知。
2.类条件概率密度已知。

然而条件2不容易满足，因为往往面临多个特征，类条件概率密度函数参数过多，无法进行估计。

退让一步，假设特征两两之间相互独立，类条件概率密度的函数形式得到大大简化且易于估计，于是条件2得以满足。

朴素贝叶斯是对贝叶斯决策的展开讨论。

贝叶斯估计

（待）

说明

如有错误，敬请指正。

确定要放弃本次机会？
福利倒计时
: :

立减 ¥
普通VIP年卡可用
立即使用

饺子醋

关注关注

8
点赞

踩

26

收藏

觉得还不错? 一键收藏

0
评论

复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

朴素贝叶斯算法与贝叶斯估计

空字符

12-14 4758

在看贝叶斯算法的相关内容时，你一定被突如其来的数学概念搞得头昏脑涨。比如极大似然估计(Maximum likelihood estimation )，极大后验概率估计(Maximum a posteriori estimation)，先验概率(Prior probability)，后验概率(Posteriori probability)等。所以后面我就本着先学会用，再谈概念的路线来进行。1. 朴素贝

贝叶斯决策与贝叶斯参数估计

qiusuoxiaozi的博客

01-12 4959

1/11/2017 11:02:08 PM 考试结束了重新看了一下贝叶斯参数估计（极大似然参数估计思想很简单，不用多说了），感觉贝叶斯参数估计真是内涵很深啊！下面两张ppt务必完全每一行都看懂（刘老师的PPT确实做得好啊）第二张PPT讲得很清楚了，关于贝叶斯参数估计的基本条件和步骤。需要注意的的是p(x|θ)表示的是参数θ给定时，x（也就是数据）的一般分布；而p(D|θ)则表示实际上生成手上

参与评论您还未登录，请先登录后发表或查看评论

经典统计与 贝叶斯统计介绍

最新发布

SILVERCROWNAGE的博客

08-29 1594

经典统计使用频率学派的方法，依赖于样本数据的频率分布进行推断。在经典统计中，参数被认为是固定但未知的，而推断过程主要是基于样本数据的统计性质进行。常见的经典统计方法包括置信区间、假设检验等。

朴素贝叶斯和贝叶斯估计

weixin_30563319的博客

11-23 142

贝叶斯定理 贝叶斯定理是关于随机事件A和B的条件概率和边缘概率的一则定理。在参数估计中可以写成下面这样：这个公式也称为逆概率公式，可以将后验概率转化为基于似然函数和先验概率的计算表达式，即在贝叶斯定理中，每个名词都有约定俗成的名称： P(A)是A的先验概率或边缘概率。之所以称为"先验"是因为它不考虑任何B方面的因素。P(A|B)是已知B发生后A的条件概率(在B发生...

贝叶斯估计与贝叶斯学习的区别

a503244552的博客

04-27 756

贝叶斯估计：贝叶斯估计是把待估计的参数看作具有先验分布密度p()的随机变量，其取值与样本D有关，用训练样本D估计出最优的，记为。贝叶斯学习：把贝叶斯估计的原理用于直接从数据对概率密度函数进行迭代估计。对于贝叶斯学习而言，它是一个递推贝叶斯估计过程，如果随着样本的增加后验概率序列逐渐尖锐，趋向于以0的真实值为中心的尖峰并收敛于真实值的脉冲，则称此过程为贝叶斯学习，样本的概率密度函数为:。

朴素贝叶斯_朴素贝叶斯分类_

10-01

4. **分类决策**: 对于新样本，朴素贝叶斯分类器会选择具有最高后验概率的类别作为预测类别。这是因为根据最大后验概率原则（MAP），这个类别是最有可能的。 5. **训练过程**: 在训练阶段，朴素贝叶斯分类器统计每...

最小错误率贝叶斯决策MATLAB代码、测试样本以及训练样本。

10-12

可能涉及到的函数包括`classregtree`（决策树）、`fitcnb`（朴素贝叶斯分类器）或者自定义的函数来执行最小错误率决策。 7. **性能度量**：为了评估模型的性能，通常会使用混淆矩阵、准确率、召回率、F1分数等指标...

贝叶斯决策树方法在招生数据挖掘中的应用.pdf

07-14

贝叶斯决策树能够提供一种更准确、灵活的分类方法，它基于概率统计原理，通过先验信息对未知数据进行估计和推断。这种方法允许分类器在遇到不确定或缺失的数据时仍能作出合理的决策。先验信息方法是指利用之前的...

朴素贝叶斯案例：商品评论情感分析

08-23

朴素贝叶斯是一种基于概率论的分类方法，它在机器学习领域被广泛应用，尤其是在文本分类、情感分析等任务中。本案例"商品评论情感分析"是朴素贝叶斯理论的一个实际应用，旨在通过分析商品评论的情感倾向，为商家提供...

朴素贝叶斯py源代码

05-22

最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型（Naive Bayesian Model，NBM）。和决策树模型相比，朴素贝叶斯分类器(Naive Bayes Classifier 或 NBC)发源于古典数学理论，有着坚实的...

统计学习方法第四章朴素贝叶斯的贝叶斯估计，例题4.2代码实践

GrinAndBearIt的博客

01-12 2956

统计学习方法第四章朴素贝叶斯的贝叶斯估计，例题4.2代码实践（如需要查看极大似然估计的算法请看我的另一篇文章http://blog.csdn.net/grinandbearit/article/details/79044065），贝叶斯算法略微复杂了点对分子分母做了矫正防止出现乘0现象 #-*- coding:utf-8 -*- from numpy import * #将书上的数据输入，

《统计学习方法》第4章朴素贝叶斯法与贝叶斯估计

you1314520me的专栏

10-28 828

前言写本文章主要目的是复习（毕竟之前看纸质版做的笔记），对于证明比较跳跃和勘误的地方我都做了注解，以便初学者和以后复习地时候快速阅读理解不会卡住。本文原文将书上所有证明给出，由于CSDN的公式编辑器公式支持不全，有些公式没法正常显示，欢迎点击此处查看原文, 个人技术博客：SnailDove 文章目录前言朴素贝叶斯法4.1 朴素贝叶斯法的学习与分类4.1.1 基本方法4.1.2 后验概率最大化...

贝叶斯决策与参数估计小结

weixin_30606461的博客

05-26 143

有监督机器学习的问题都是以这种形式出现的: 给定training set $D$: $(x_i, y_i)$, $i \in \{1,2, \dots, m\}$, $y_i\in \{1, \dots, c\}$ 选一个模型进行训练预测新样本$x$的$y$ 贝叶斯决策论采用概率模型, 在$0-1$loss 的情况下, 最佳选择, 也是风险最小的选择, 就是后验概...

贝叶斯模型、贝叶斯推断、贝叶斯估计三者有什么区别？

Kp0fS的草稿纸

08-18 1281

贝叶斯模型：Bayesian Model; 贝叶斯推断：Bayesian inference; 贝叶斯估计：Bayesian estimation; 三者有什么区别？坑

机器学习——贝叶斯算法和朴素贝叶斯算法

macan的博客

09-17 2426

机器学习——贝叶斯算法和朴素贝叶斯算法前言贝叶斯算法1、贝叶斯决策论算法示例前言先理解下贝叶斯算法要解决的问题：正向概率：假设袋子里面有N个白球，M个黑球，伸手进去摸一把，摸出黑球的概率有多大？很简单：M/(N+M) 逆向概率：如果事先并不知道袋子里黑白球的比例，而是闭着眼睛摸出一个（或好几个）球，观察这些取出来的球的颜色之后，那么就可以对此袋子里面的黑白球的比例作出什么样的推测...

贝叶斯决策论&朴素贝叶斯分类器学习笔记

weixin_43077546的博客

12-25 311

学习目标掌握贝叶斯决策论的原理、朴素贝叶斯分类器的推导过程以及实现方法 贝叶斯决策论 1.1 贝叶斯决策的基本原理 贝叶斯决策是分类问题中最为常见的方法之一，是在概率框架下实现决策的基本方法，其根本思想就是帮助人们在已知条件下做出一个最佳决策 贝叶斯决策基于一个最基本的公式， p(x∣y)p(x|y)p(x∣y)=p(x)∗p(y∣x)p(y)\frac{p(x)*p(y|x)}{p(y)}p(y)p(x)∗p(y∣x) 1.1.1 先验概率、后验概率先验概率：指事情没有发生之前，仅仅凭借自己的主观经

朴素贝叶斯和贝叶斯估计_贝叶斯估计收入增长的方法

weixin_26713521的博客

09-01 833

Note from Towards Data Science’s editors: While we allow independent authors to publish articles in accordance with our rules and guidelines, we do not endorse each author’s contribution. You should n...

机器学习中的贝叶斯与朴素贝叶斯

Study memo

07-16 2594

贝叶斯是用来描述两个条件概率直接的关系。我知道：由上式进一步推导得：由此，推广到随机变量的范畴，设X,Y为两个随机变量，得到贝叶斯公式：其中，P(Y)叫做先验概率，P(Y|X)叫做后验概率，P(Y,X)是联合概率。在机器学习的视角下，我们把X理解成“具有某种特征”，把Y理解为“类别标签”，贝叶斯方法把计算“具有某特征的条件下属于某类”的概率转换成需要计算“属于某类的条件下具有某特征”的概率，属于监...