朴素贝叶斯分类器（修改版）

最新推荐文章于 2022-11-29 22:48:43 发布

一叶_障目

最新推荐文章于 2022-11-29 22:48:43 发布

阅读量662

点赞数

分类专栏：朴素贝叶斯分类器文章标签：朴素贝叶斯

本文链接：https://blog.csdn.net/Haiyang_Duan/article/details/78956202

版权

分类器同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

朴素贝叶斯

3 篇文章 0 订阅

订阅专栏

一、引言 给定一个对象的集合，每一个对象用一个向量表示且属于一个类别，我们的任务是：构造一个规则，使得对于一个未曾见过但不具有类别标记的对象，该规则能为其确定类别。这类被称为“有监督分类”的问题非常普遍，相应的规则方法也已经很成熟了。
其中一个非常重要的方法就是朴素贝叶斯。朴素贝叶斯分类器是特征条件独立假设并基于贝叶斯定理的分类方法，它是一种传统的分类方法，有着较深的基础数学理论基础，这个方法非常受重视是因为：

它易于构造，模型参数的估计不需要任何复杂的迭代求解框架，非常适用于规模巨大的数据集；
它易于解释，即便是不熟悉分类计数的用户也能理解；
分类效果好，对于任何应用，它的分类效果即便不是最好的，也可能是最稳健的；

      该方法的数学基础是贝叶斯定理和贝叶斯公式。
      贝叶斯定理：随机事件 $A,B$ 的条件或边缘概率的定理；
      贝叶斯公式：用来描述两个条件概率之间的关系，

P (A ⋂ B) = P (A) \cdot P (B | A) = P (B) \cdot P (A | B)

$P(A\bigcap B)=P(A)\cdot P(B|A)=P(B)\cdot P(A|B)$

注：
边缘概率：某个事件发生的概率与其他事件无关；

首先给出一些量的定义：
$P(i|x)$ 表示一个测量对象为 $x=(x_1,x_2,...,x_p)$ 的对象属于类别 $i$ 的概率；
$P(x|i)$ 表述 $x$ 关于类别 $i$ 的条件分布；
$P(i)$ 为不知道对象自身任何信息的情况下该对象属于类别 $i$ 的概率（即类别 $i$ 的先验概率）；
$P(x)$ 为类别的混合分布
很明显，如果对 $P(i|x)$ 的估计能得到一个合适的分数，可以将之用于分类规则。

二、贝叶斯决策论

在所有相关概率都已知的情况下，贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。
假设有N种可能的类别标记，即 $Y=\{c_1,c_2,...,c_N\},\lambda_{ij}$ 是将一个真实标记为 $c_j$ 的样本误分类为 $c_i$ 所产生的损失。基于后验概率 $P(c_i|x)$ 可获得样本 $x$ 分类为 $c_i$ 所产生的期望损失，即在样本 $x$ 上的“条件风险”（在决策论中将期望损失称为风险）：

注：
决策论将“期望损失”称为“风险”；

R (c i | x) = \sum j = 1 N λ i j P (c j | x)

$R(c_i|x)=\sum_{j=1}^N\lambda_{ij}P(c_j|x)$
我们的任务是寻找一个判定准则

h:χ→Y $h:\chi\rightarrow Y$ 以最小化总体风险

R (h) = E x [R (h (x)) | x]

$R(h)=E_x[R(h(x))|x]$
显然，对每个样本

x $x$ ，若h能最小化条件风险

R(h(x)|x) $R(h(x)|x)$ ，则总体风险

R(h) $R(h)$ 也将被最小化。这就产生了贝叶斯判定准则： 为最小化总体风险，只需在每个样本上选择那个使条件风险 $R(c|x)$ 最小的类别标记：

h * (x) = a r g m i n c \in Y R (c | x)

$h^*(x)={arg\,min}_{c\in Y}R(c|x)$
此时，

h∗ $h^*$ 称为贝叶斯最优分类器，与之对应的总体风险

R(h∗) $R(h^*)$ 称之为贝叶斯风险，

1−R(h∗) $1-R(h^*)$ 反映了分类器所能达到的最好性能，即通过机器学习所能产生的模型精度的理论上限。
若木表是最小化分类错误率，则

λij $\lambda_{ij}$ 可写为：

λ i j = {01 i f i = j o t h e r w i s e

$\lambda_{ij}=\begin{cases}0&if\,\,\,i=j\\1&otherwise\end{cases}$
此时条件风险：

R (c | x) = 1 - P (c | x)

$R(c|x)=1-P(c|x)$
于是，最小化分类错误率的贝叶斯最优分类器为：

h * (x) = arg max c \in Y P (c | x)

$h^*(x)=\arg\max_{c\in Y}P(c|x)$
对每个样本

x $x$ ，选择能使后验概率 $P(c|x)$ 最大的类别标记。

      想要使用贝叶斯判定准则来最小化决策风险，首先要获得后验概率 $P(c|x)$ ，这通常难以直接获得。从这个角度出发，机器学习所要实现的是基于有限的训练样本集尽可能准确地估计出后验概率 $P(c|x)$ 。事实上，很多机器学习方法无须准确估计后验概率就能准确进行分类。

      大体来说，主要有两种策略：1.给定x，通过直接建模 $P(c|x)$ 来预测 $c$ ，这属于“判别式模型”；也可先对联合概率分布 $P(c,x)$ 建模，然后再获得 $P(c|x)$ ，这属于“生成式模型”。对于后者，必然考虑：

$P (c | x) = P ( c ) P ( x | c ) P ( x )$ $P(c|x)=\frac{P(c)P(x|c)}{P(x)}$
       类先验概率 $P(c)$ 对所有类别标记均相同，可通过各类 样本出现的频率进行估计。

      类条件概率 $P(x|c)$ 亦称之为”似然”，由于涉及x所有属性的联合分布，直接根据样本出现的频率进行估计将会遇到严重的困难。假设样本的 $d$ 个属性都是二值的，则样本空间将有 $2^d$ 中可能性，很多取值在训练集中可能根本就没有出现，直接使用频率估计 $P(x|c)$ 显然不可行，因为“未被观测到”与“出现概率为零”是不同的。

注：
联合概率 $P(AB)$ 或者 $P(A\bigcap B)$ :多元随机变量分别满足各自条件的概率

三、极大似然估计

      概念理解：一般来说，时间 $A$ 发生的概率与某一未知的参数 $\theta$ 有关， $\theta$ 取值不同，则事件 $A$ 发生的概率 $P(A|\theta)$ 也不相同，当我们在一次试验中事件 $A$ 发生了，则认为此时的 $\theta$ 值应是其一切可能取值中使得 $P(A|\theta)$ 达到最大的那一个值，极大似然估计就是要找出这样的值作为参数 $\theta$ 的估计值，从而使得所选取的样本在数据集中出现的可能性最大。

      最大似然估计是常用的参数估计方法之一，即已知某个随机样本满足某种概率分布，但是具体的参数未知，参数估计就是通过若干次实验通过其结果推测参数的大概值。

      估计类条件概率的一种常用策略是：先假定类条件概率具有某种确定的概率分布形式，再基于训练数据集对概率分布的参数进行估计。具体地，即关于类别c的类条件概率为 $P(x|c)$ ，假设 $P(x|c)$ 具有确实的形式并且被参数向量 $\theta_c$ 唯一确定，则我们的任务就是利用训练集 $D$ 估计参数 $\theta_c$ 。将 $P(x|c)$ 记为 $P(x|\theta_c)$ 。

      事实上，概率模型的训练过程就是参数估计的过程。统计学派认为参数虽未知，但是客观存在的固定值，因此可通过优化似然函数来确定参数值；贝叶斯学派认为，参数也可能具有某种分布，可假设参数服从一个先验分布，然后基于观测到的数据来计算参数的后验概率。极大似然估计属于前者。

      令 $D_c$ 表示训练集 $D$ 中第 $c$ 类样本组成的集合，假设这些样本是独立同分布的，则参数 $\theta_c$ 对于数据集 $D_c$ 的似然：

注：
独立同分布：在随机过程中，任何时刻的取值均为随机变量，如果这些随机变量服从同一分布，且相互独立，则这些变量是独立同分布的。

$P (D c | θ c) = \prod x \in D c P (x | D c)$ $P(D_c|\theta_c)=\prod_{x\in\,D_c}P(x|D_c)$
      对 $\theta_c$ 进行极大似然估计就是寻找能使最大化似然 $P(D_c|\theta_c)$ 的参数 $\hat\theta_c$ 。 直观上看，极大似然估计是试图在 $\theta_c$ 所有可能的取值中找到一个能使数据出现的“可能性”最大的值。

      对以上的连乘操作易造成下溢，通常使用对数似然：

$L L (θ c) = l o g P (D c | θ c) = \sum x \in D c l o g P (x | θ c)$ $LL(\theta_c)=logP(D_c|\theta_c)=\sum_{x\in D_c}logP(x|\theta_c)$
      此时参数的最大化似然估计 $\hat\theta_c$ 为：

$θ^c = arg max θ c L L (θ c)$ $\hat\theta_c=\arg\max_{\theta_c}LL(\theta_c)$

四、朴素贝叶斯分类器

      基于贝叶斯公式估计后验概率 $P(c|x)$ 的主要困难在于：类条件概率 $P(x|c)$ 是所有属性上的联合概率，难以从有限的数据集或者训练样本中直接估计而得。为避开这个障碍，朴素贝叶斯分类器采用了“属性条件独立性假设”：对已知的类别，假设属性相互独立，即每个属性独立的对分类结果产生影响。

      由属性条件独立性假设可得：

$P (c | x) = P ( c ) P ( x | c ) P ( x ) = P ( c ) P ( x ) \prod i = 1 d P (x i | c)$ $P(c|x)=\frac{P(c)P(x|c)}{P(x)}=\frac{P(c)}{P(x)}\prod_{i=1}^dP(x_i|c)$
      对于所有的类别来说， $P(x)$ 相同，因此：

$h n b (x) = arg max c \in Y P (c) \prod i = 1 d P (x i | c)$ $h_{nb}(x)=\arg\max_{c\in Y}P(c)\prod_{i=1}^dP(x_i|c)$
      这就是朴素贝叶斯分类器的思想。

      基于训练数据集估计类先验概率 $P(c)$ ，并为每一属性估计条件概率 $P(x_i|c)$ 。

$P (c) = | D c | | D |$ $P(c)=\frac{|D_c|}{|D|}$
      如果属性是离散的：

$P (x i | c) = | D c , x i | | D c |$ $P(x_i|c)=\frac{|D_{c,x_i}|}{|D_c|}$
      如果属性是连续的，可以考虑密度函数，假设
$p (x i | c) \sim N (μ c, i, σ 2 c, i)$ $p(x_i|c)\sim N(\mu_{c,i},\sigma_{c,i}^2)$
      其中 $\mu_{c,i}$ 和 $\sigma_{c,i}^2$ 分别是第 $c$ 类样本在第 $i$ 个属性上取值的均值和方差，则有：
$p (x i | c) = 1 2 π - - \sqrt σ c , i e x p ⎛ ⎝ - ( x i - μ c , i ) 2 2 σ 2 c , i ⎞ ⎠$ $p(x_i|c)=\frac{1}{\sqrt{2\pi}\sigma_{c,i}}exp\left(-\frac{(x_i-\mu_{c,i})^2}{2\sigma_{c,i}^2}\right)$

声明：本文内容引自周志华老师《机器学习》

关注博主即可阅读全文

确定要放弃本次机会？
福利倒计时
: :

立减 ¥
普通VIP年卡可用
立即使用

一叶_障目

关注关注

0
点赞

踩

0

收藏

觉得还不错? 一键收藏

0
评论

朴素贝叶斯分类器（修改版）

贝叶斯决策论在所有相关概率都已知的情况下，贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。假设有N种可能的类别标记，即Y={c1,c2,...,cN},λijY=\{c_1,c_2,...,c_N\},\lambda_{ij} 是将一个真实标记为cjc_j的样本误分类为cic_i所产生的损失。基于后验概率P(ci|x)P(c_i|x)可获得样本xx分类为c
复制链接

扫一扫

专栏目录

朴素贝叶斯分类器

冲出仁川，走出马德里，故事还会再继续

06-08 867

分类是找出描述和区分数据类或概念的模型，以便使用模型预测类标号未知的对象类标号。分类一般分为两个阶段：学习阶段：分类阶段：使用定义好的分类器进行分类的过程。分类与预测是不同的概念，分类是预测分类(离散、无序)标号，而数值预测是建立连续值函数模型。分类与具类也是不同的概念，分类是有监督学习，提供了训练元组的类标号；聚类是无监督学习，不依赖有类标号的训练实例。贝叶斯定理的公式为： P(h│D)=P(D│h)P(h)P(D) P(ℎ│D)=\frac{P(D│ℎ)P(ℎ)}{P(D)} P(h│D

C++实现朴素贝叶斯分类器(加强版)

09-14

本文将深入探讨如何在C++中构建一个加强版的朴素贝叶斯分类器，以及如何将其拆分为训练和预测两个独立的工程，以提高代码的可维护性和使用便捷性。首先，我们要理解朴素贝叶斯分类器的基本原理。朴素贝叶斯模型...

参与评论您还未登录，请先登录后发表或查看评论

python实现朴素贝叶斯分类器（连续数据）

Big_Pai的博客

04-18 8315

有用请点赞，没用请差评。欢迎分享本文，转载请保留出处。一、算法算法原理参考周志华老师的《机器学习》p151和李航老师的《统计学习方法》。博客内容部分借鉴于腾讯云“海天一树”老师。二、数据集本文中的数据集使用的是“皮马印第安人糖尿病数据集”。该数据集由美国国立糖尿病、消化和肾脏疾病研究所（United States National Institute of Dia...

基于贝叶斯算法的拼写修改器——python机器学习

weixin_42836427的博客

10-09 157

有关贝叶斯算法的简介可看此链接的文章： https://blog.csdn.net/a727911438/article/details/55847696 利用正则表达式中的findall进行部分单词的查找匹配只适用于部分单词，并且只采用与编辑距离有关进行匹配且其中需要一个本文文件作为参考的文件。 import re,collections #把语料中的单词全部抽取出来，转成小写，并且去除单词中...

神经网络中的分类器该如何改成生成器？

CSDN资讯

10-17 1929

作者 | 李秋键责编 | 刘静出品 | CSDN（ID：CSDNnews）引言：相信我们都做过一些图片分类或者是其他分类的项目，我们知道神经网络是在w和b参数调节基础上，使得x与y达到对应输出的效果。比如最经典的Mnist手写字体识别，给一张图片模型判断后将会输出数字结果，比如这样：我们知道大多数生成网络是用的GAN算法，显然他有他自己的优势，通过...

贝叶斯分类器.zip

08-25

在Python中，常用的实现贝叶斯分类器的库有Scikit-learn的GaussianNB（高斯朴素贝叶斯）、MultinomialNB（多项式朴素贝叶斯）和BernoulliNB（伯努利朴素贝叶斯）等。项目可能涵盖了以下知识点： 1. 贝叶斯定理的...

基于MATLAB实现的编码的柑橘果实分类图像的朴素贝叶斯分类器+使用说明文档.zip

最新发布

05-24

基于MATLAB实现的编码的柑橘果实分类图像的朴素贝叶斯分类器+使用说明文档.zip 1、代码压缩包内容主函数：main.m；调用函数：其他m文件；无需运行运行结果效果图； 2、代码运行版本 Matlab 2020b；若运行有误，...

基于python实现的朴素贝叶斯听其名知其性+特征向量+特征词+分类器+数据集(6w)+安装说明(课程设计)

04-29

朴素贝叶斯听其名知其性介绍训练好的模型进行保存，导致每次运行都需要分词并计算，二代版本实现将训练模型进行保存，大大减少了二次运行的时间消耗。代码运行过程中将判断是否已经具有保存过的...

机器学习（十一）-Naïve Bayes Classifier朴素贝叶斯分类器及Python实现

Blessy_Zhu的博客

06-04 9273

朴素贝叶斯分类是一种十分简单的分类算法，叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素。朴素贝叶斯的思想基础是这样的：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类**别。尽管这些特征相互依赖或者有些特征由其他特征决定，然而朴素贝叶斯分类器认为这些属性是独立的（独立性假设）。对于某些类型的概率模型，在监督式学**习的样本集中能获取得非常好的分类效果。

朴素贝叶斯分类器的一个应用

07-18

算法研究凑空写了个NBC 朴素贝叶斯分类器 希望对大家有用

机器学习-朴素贝叶斯分类

qq_52233007的博客

11-29 1827

例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考优点：1、朴素贝叶斯模型发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。2、NBC模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。缺点：1、理论上，NBC模型与其他分类方法相比具有最小的误差率。

机器学习笔记07---朴素贝叶斯分类器

m0_64007201的博客

10-29 3549

朴素贝叶斯分类器

贝叶斯分类器，什么是朴素贝叶斯，后续为使用贝叶斯实现海量数据的邮件筛选。带源码数据集和解决思路

weixin_43005832的博客

04-08 1597

贝叶斯分类器，什么是朴素贝叶斯，概率论中的贝叶斯在分类中的实现

机器学习——朴素贝叶斯分类器的概率论基础

沉迷单车的追风少年

03-08 555

机器学习本质是统计学，背后一些数学理论要经常复习才不会忘记，下面复习朴素贝叶斯分类器背后的概率论基础。随机变量：变量值依赖于随机性。概率：用于描述一个事件发生的可能性，主要区分概率和频率。例如：概率为0的事件一定是不可能事件；不可能事件发生的概率一定为0；这两种说法那个正确。条件概率：一个事件在另一个事件已经发生的情况下就发生的概率。概率分布：一个实验中不同事件发生的概率的函数。 ...

朴素贝叶斯分类器--个人笔记

weixin_41276745的博客

04-25 798

朴素贝叶斯分类器作为基于贝叶斯定理的监督学习算法，曾入选“数据挖掘十大算法”。本文结合个人学习笔记和scikit-learn中朴素贝叶斯算法的官方文档，总结朴素贝叶斯算法的基本思想原理和scikit-learn中三种类型的朴素贝叶斯分类器的适用范围，供以后学习使用。朴素贝叶斯分类算法的基本原理：最小化分类错误率的最优贝叶斯分类是使后验概率P（y|x）最大化，即：根据贝叶斯公式：朴素贝叶斯假设每个样...

朴素贝叶斯分类器的研究现状

06-01

朴素贝叶斯分类器是一种基于贝叶斯定理的分类算法，它假设所有特征之间相互独立，因此被称为“朴素”。它具有训练速度快、适用于大规模数据集、对缺失数据不敏感等优点，因此在文本分类、垃圾邮件过滤、情感分析等领域得到广泛应用。目前，朴素贝叶斯分类器的研究方向主要包括以下几个方面： 1. 非独立性贝叶斯分类器：针对朴素贝叶斯分类器中独立性假设的不足，研究者提出了非独立性贝叶斯分类器，例如半朴素贝叶斯分类器和树形朴素贝叶斯分类器等。 2. 多分类朴素贝叶斯分类器：针对朴素贝叶斯分类器只能处理二分类问题的限制，研究者提出了多分类朴素贝叶斯分类器，例如多项式朴素贝叶斯分类器和伯努利朴素贝叶斯分类器等。 3. 增量式朴素贝叶斯分类器：针对传统朴素贝叶斯分类器需要重新训练的问题，研究者提出了增量式朴素贝叶斯分类器，可以在不重新训练的情况下对新的数据进行分类。 4. 改进的朴素贝叶斯分类器：针对朴素贝叶斯分类器的缺陷，研究者提出了许多改进的朴素贝叶斯分类器，例如加权朴素贝叶斯分类器和混合朴素贝叶斯分类器等。总的来说，朴素贝叶斯分类器在分类问题中仍然具有重要的应用价值，随着研究的不断深入，相信它会有更加广泛的应用。

“相关推荐”对你有帮助么？

非常没帮助

没帮助

一般

有帮助

非常有帮助

提交