第四章总结朴素贝叶斯法

最新推荐文章于 2022-04-06 21:42:34 发布

Yonghua Li

最新推荐文章于 2022-04-06 21:42:34 发布

阅读量356

点赞数

分类专栏：机器学习

机器学习专栏收录该内容

16 篇文章 0 订阅

订阅专栏

朴素贝叶斯法 $Naive Bayes$ 是基于贝叶斯定理与特征条件独立假设的分类方法。朴素一词也意味着它是一种最简单、常见的贝叶斯方法，朴素贝叶斯是贝叶斯证据独立的表达形式，属于一种特例。

4.1 朴素贝叶斯的学习和分类

4.1.1 概率论基础

先验概率、条件概率和后验概率

先验概率：事件发生前的预判概率。可以是基于历史数据的统计，可以由背景常识得出，也可以是人的主观观点给出。一般都是单独事件概率，如 $P(x)$ , $P(y)$ 。

条件概率：一个事件发生后另一个事件发生的概率。一般的形式为 $P(x|y)$ 表示 $y$ 发生的条件下 $x$ 发生的概率。

后验概率：事件发生后求的反向条件概率；或者说，基于先验概率求得的反向条件概率。一般表示为 $P(y|x)$ 。

从原因到结果的论证称为“先验的”，而从结果到原因的论证称为“后验的”。

在概率论中， $y \to x$ 意味着 $y$ 由这个原因呈现出 $x$ 这个特征，我们将 $x$ 表示为特征相当于结果而不是原因，
同时，我们将 $y$ 表示为类别、值等等价于原因。

先验概率是指根据以往经验和分析得到的概率，如全概率公式中的，它往往作为“由因求果”问题中的“因”出现。后验概率是指在得到“结果”的信息后重新修正的概率，是“执果寻因”问题中的“因” 。后验概率是基于新的信息，修正原来的先验概率后所获得的更接近实际情况的概率估计。先验概率和后验概率是相对的。

先验概率的分类：

利用过去历史资料计算得到的先验概率，称为客观先验概率；
当历史资料无从取得或资料不完全时，凭人们的主观经验来判断而得到的先验概率，称为主观先验概率。

贝叶斯公式的推导过程：

条件概率

P (x | y) = P ( x , y ) P ( y )

$P(x|y) = \frac {P(x,y)}{ P(y)}$
得到

P(x,y) P ( x , y ) $P(x,y)$

P (x, y) = P (x | y) P (y)

$P(x,y) = P(x|y) P(y)$
同理

P (y | x) = P ( x , y ) P ( x )

$P(y|x) = \frac {P(x,y)}{ P(x)}$
将

P(x,y) P ( x , y ) $P(x,y)$ 代入上式

P (y | x) = P ( x | y ) P ( y ) P ( x )

$P(y|x) = \frac {P(x|y) P(y)}{ P(x)}$

这里： $P(y|x)$ 是后验概率，一般是我们求解的目标。

4.2 朴素贝叶斯基本方法

我们的目标是，根据 $x$ , 找出后验概率 $P(y|x)$ 最大的 $y$ 值。
先验概率分布

P (Y = c_{k}), k = 1, 2, . . ., K

$P(Y=c_k) , k = 1,2,...,K$
条件概率分布

P (X = x | Y = c k) = P (X (1) = x (1), . . ., X (n) = x (n) | Y = c k), k = 1, 2, . . ., K

$P(X=x|Y=c_k) = P(X^{(1)} = x^{(1)},...,X^{(n)} = x^{(n)}|Y=c_k ) , k = 1,2,...,K$
于是可以学习到联合概率分布

P(X,Y)=P(X|Y)P(Y) P ( X , Y ) = P ( X | Y ) P ( Y ) $P(X,Y) = P(X|Y)P(Y)$ 。
但是正常情况下条件概率分布

P(X=x|Y=ck) P ( X = x | Y = c k ) $P(X=x|Y=c_k)$ 有指数级数量的参数，计算上不可行。

因此，朴素贝叶斯方法的核心朴素就是对条件概率分布作出了 条件独立性的假设
等于说用于分类的特征在类的条件下都是条件独立的，它使得贝叶斯方法简化的同时，也一定程度上降低的分类的精确性。
具体，基于条件独立假设的条件概率分布

P (X = x | Y = c k) = P (X (1) = x (1), . . ., X (n) = x (n) | Y = c k), k = 1, 2, . . ., K

$P(X=x|Y=c_k) = P(X^{(1)} = x^{(1)} ,...,X^{(n)} = x^{(n)}|Y=c_k ) , k = 1,2,...,K$

= \prod j = 1 n P (X (j) = x (j) | Y = c k)

$= \prod_{j=1}^{n} P(X^{(j)} = x^{(j)} | Y = c_k)$
具体推导如下

P (x (1), x (2), x (3), . . . | y) = P (x (1) | y) P (x (2) | x (1), y) . . . P (x (3) | y, x (1), x (2), . . .)

$P(x^{(1)},x^{(2)},x^{(3)},...|y) = P(x^{(1)}|y)P(x^{(2)}|x^{(1)},y)...P(x^{(3)}|y,x^{(1)},x^{(2)},...)$

= P (x (1) | y) P (x (2) | y) . . . P (x (3) | y)

$= P(x^{(1)}|y)P(x^{(2)}|y)...P(x^{(3)}|y)$

= \prod i = 1 n P (x (i) | y)

$= \prod_{i=1}^{n} P(x^{(i)} | y)$

朴素贝叶斯法分类时，对给定的输入 $x$ ，通过学习到的模型计算后验概率分布 $P(Y=c_k|X=x)$ ,将后验概率最大的类作为 $x$ 的类输出
由全概率公式

P (Y | X) = \frac{P (X | Y) P (Y)}{P (X)} = \frac{P (X | Y) P (Y)}{\sum_{k} P (X | Y = c_{k}) P (Y = c_{k})}

$P(Y|X) = \frac{P(X|Y)P(Y)}{P(X)} = \frac {P(X|Y)P(Y)}{\sum_k P(X|Y=c_k)P(Y=c_k) }$

P (Y = c k | X = x) = P ( X = x | Y = c k ) P ( Y = c k ) \sum k P ( X = x | Y = c k ) P ( Y = c k )

$P(Y = c_k | X = x) = \frac {P(X=x|Y=c_k)P(Y=c_k)}{\sum_k P(X=x|Y=c_k)P(Y=c_k)}$

P (Y = c k | X = x) = P ( Y = c k ) \prod j P ( X ( j ) = x ( j ) | Y = c k ) \sum k P ( Y = c k ) \prod j P ( X ( j ) = x ( j ) | Y = c k )

$P(Y = c_k | X = x) = \frac {P(Y=c_k)\prod_j P(X^{(j)} = x^{(j)} |Y=c_k) }{\sum_k P(Y=c_k)\prod_j P(X^{(j)} = x^{(j)} |Y=c_k)}$

朴素贝叶斯分类器可表示为

y = f (x) = a r g max c k P ( Y = c k ) \prod j P ( X ( j ) = x ( j ) | Y = c k ) \sum k P ( Y = c k ) \prod j P ( X ( j ) = x ( j ) | Y = c k )

$y = f(x) = arg \max_{c_k} \frac {P(Y=c_k)\prod_j P(X^{(j)} = x^{(j)} |Y=c_k) }{\sum_k P(Y=c_k)\prod_j P(X^{(j)} = x^{(j)} |Y=c_k)}$
上式中，分母对所有

ck c k $c_k$ 都是相同的，所以去掉分母

y = f (x) = a r g max c k P (Y = c k) \prod j P (X (j) = x (j) | Y = c k)

$y = f(x) = arg \max_{c_k} P(Y=c_k)\prod_j P(X^{(j)} = x^{(j)} |Y=c_k)$

4.3 后验概率最大化的含义

上述朴素贝叶斯法将实例分到后验概率最大的类中，等价于期望风险最小化。

证明详见《统计学习方法》 $P_{48-49}$

4.4 朴素贝叶斯的参数估计

4.4.1 极大似然估计

先验概率 $P(Y = c_k)$ 的极大似然估计是

P (Y = c k) = \sum N i = 1 I ( y i = c k ) N, k = 1, 2, . . ., K

$P(Y = c_k) = \frac {\sum_{i=1}^{N} I(y_i = c_k)}{N}, k = 1,2,...,K$
设第

j j $j$ 个特征

x^{(j)}

$x^{(j)}$ 可能取值的集合为

{aj1,aj2,...,ajSj} { a j 1 , a j 2 , . . . , a j S j } $\{ a_{j1},a_{j2},...,a_{jS_j} \}$ ，条件概率

P(X(j)=ajl|Y=ck) P ( X ( j ) = a j l | Y = c k ) $P(X^{(j)} = a_jl|Y=c_k)$ 的极大似然估计是

P (X (j) = a j l | Y = c k) = \sum N i = 1 I ( x ( j ) i = a j l , y i = c k ) \sum N i = 1 I ( y i = c k )

$P(X^{(j)} = a_{jl} | Y = c_k) = \frac {\sum_{i=1}^{N} I(x_i^{(j)} = a_{jl},y_i = c_k)}{\sum_{i=1}^{N} I(y_i = c_k)}$

j = 1, 2, . . ., n; l = 1, 2, . . ., S j; k = 1, 2, . . ., K

$j = 1,2,...,n;l=1,2,...,S_j;k=1,2,...,K$

式中， $x_i^{(j)}$ 是第 $i$ 个样本的第 $j$ 个特征； $a_{jl}$ 是第 $j$ 个特征可能取的第 $l$ 个值； $I$ 为指数函数。

4.4.2 学习与分类算法

朴素贝叶斯算法 $(naive$ $Bayes$ $algorithm)$
输入：训练数据 $T = \{ (x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ，其中 $x_i = (x_i^{(1)},x_i^{(2)},...,x_i^{(n)}) ^T$ , $x_i^{(j)}$ 是第 $i$ 个样本的第 $j$ 个特征， $x_i^{(j)} \in \{ a_{j1},a_{j2},...,a_{jS_j} \}$ ， $a_{jl}$ 是第 $j$ 个特征可能取的第 $l$ 个值， $j = 1,2,...,n; l= 1,2,...,S_j;y_i \in \{ c_1,c_2,...,c_K \}$ ，实例 $x$ ;

输出：实例 $x$ 的分类
（1）计算先验概率及条件概率

$P (Y = c k) = \sum N i = 1 I ( y i = c k ) N, k = 1, 2, . . ., K$ $P(Y=c_k) = \frac {\sum_{i=1}^{N} I(y_i = c_k)}{N}, k = 1,2,...,K$
$P (X (j) = a j l | Y = c k) = \sum N i = 1 I ( x ( j ) i = a j l , y i = c k ) \sum N i = 1 I ( y i = c k )$ $P(X^{(j)} = a_{jl} | Y = c_k) = \frac {\sum_{i=1}^{N} I(x_i^{(j)} = a_{jl},y_i = c_k)}{\sum_{i=1}^{N} I(y_i = c_k)}$
$j = 1, 2, . . ., n; l = 1, 2, . . ., S j; k = 1, 2, . . ., K$ $j = 1,2,...,n;l=1,2,...,S_j;k=1,2,...,K$
（2）对于给定的实例 $x = (x^{(1)},x^{(2)},...,x^{(n)}) ^T$ ，计算
$P (Y = c k) \prod j P (X (j) = x (j) | Y = c k), k = 1, 2, . . ., K$ $P(Y=c_k)\prod_j P(X^{(j)} = x^{(j)} |Y=c_k) , k = 1,2,...,K$
（3）确定实例 $x$ 的分类
$y = a r g max_{c_{k}} P (Y = c_{k}) \prod_{j} P (X^{(j)} = x^{(j)} | Y = c_{k})$ $y = arg \max_{c_k} P(Y=c_k)\prod_j P(X^{(j)} = x^{(j)} |Y=c_k)$

4.4.3 贝叶斯估计

用极大似然估计可能会出所要估计的概率值为0的情况，解决这一问题的方法是采用贝叶斯估计，条件概率的贝叶斯估计是

$P λ (X (j) = a j l | Y = c k) = \sum N i = 1 I ( x ( j ) i = a j l , y i = c k ) + λ \sum N i = 1 I ( y i = c k ) + λ$ $P_{\lambda} (X^{(j)} = a_{jl}|Y=c_k) = \frac {\sum_{i=1}^N I(x_i^{(j)} = a_{jl},y_i = c_k) + \lambda}{\sum_{i=1}^N I(y_i = c_k) + \lambda}$

$\lambda \ge 0$ ,当 $\lambda =0$ 时,为极大似然估计，当 $\lambda =1$ 时，为拉普拉斯平滑 $(Laplace$ $smoothing)$

同样，先验概率的贝叶斯估计是

$P λ (Y = c k) = \sum N i = 1 I ( y i = c k ) + λ N + K λ$ $P_{\lambda} (Y=c_k) = \frac {\sum_{i=1}^N I(y_i = c_k) + \lambda}{N + K \lambda}$

确定要放弃本次机会？
福利倒计时
: :

立减 ¥
普通VIP年卡可用
立即使用

Yonghua Li

关注关注

0
点赞

踩

1

收藏

觉得还不错? 一键收藏

0
评论

复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

第四章 朴素贝叶斯

winds_lyh的博客

05-28 282

1. 概念区分 朴素贝叶斯与贝叶斯估计 朴素贝叶斯： 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布；然后基于此模型，对给定的输入xxx，利用贝叶斯定理求出后验概率最大的输出yyy. 贝叶斯估计：先验概率与后验概率先举个栗子：假设停电主要有两个原因导致：电路损坏和忘充电卡。停电的概...

统计学习方法-机器学习-第四章：朴素贝叶斯法

最新发布

07-25

统计学习方法-机器学习-第四章：朴素贝叶斯法

参与评论您还未登录，请先登录后发表或查看评论

【统计学习方法】第4章 朴素贝叶斯法

扬帆·启航

01-27 207

朴素贝叶斯（naive Bayes）法是基于贝叶斯定理与特征条件独立假设的分类方法.对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布；然后基于此模型，对给定的输入x，利用贝叶斯定理求出后验概率最大的输出y.

第四章 朴素贝叶斯法

facetosea1的博客

09-19 177

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。 1、什么是贝叶斯定理条件概率就是事件 A 在另外一个事件 B 已经发生条件下的发生概率。在贝叶斯定理中，每个名词都有约定俗成的名称：P(A)是 A 的先验概率，之所以称为“先验”是因为它不考虑任何 B 方面的因素。 P(A|B)是已知 B 发生后 A 的条件概率，也由于得自 B 的取值而被称作 A 的后验概率。 P(B|A)是...

统计学习方法笔记——第四章 朴素贝叶斯法

baidu_41304732的博客

04-12 406

朴素贝叶斯法是一种分类方法，基于两个条件：①贝叶斯定理；②特征条件之间相互独立的假设。掌握朴素贝叶斯法的思想，需先掌握概率论的相关内容：条件概率，联合概率分布，先验概率，后验概率，独立性，贝叶斯公式等。1.1 朴素贝叶斯法的基本原理朴素贝叶斯法通过训练数据集学习联合概率分布P（X，Y），具体地：①先学习先验概率分布，其中Ck代表不同的类别；②再学习条件概率分布，即在已知类别的条件下，属于某个特...

第四章：朴素贝叶斯法

qq_42198434的博客

05-16 224

朴素贝叶斯法朴素贝叶斯法的学习与分类朴素贝叶斯的参数估计极大似然估计贝叶斯估计 朴素贝叶斯法是基于贝叶斯定理和特征条件独立假设的分类方法。首先贝叶斯法通过历史数据，特征条件独立的假设学习联合概率分布P(x,y)P(x,y)P(x,y)。然后基于此模型，对给定的输入xxx使用贝叶斯定理返回后验概率最大的输出yyy。 朴素贝叶斯法的学习与分类设样本空间X\mathcal{X}X为nnn维向量的集合，输出空间Y\mathcal{Y}Y为类标记集合，Y={c1,c2,⋯ ,cK}\mathcal{Y}=\{c_1

第四章 朴素贝叶斯法1

08-03

总结来说，朴素贝叶斯法是基于贝叶斯定理的一种分类算法，它利用属性间的条件独立性简化计算，并通过训练数据估计条件概率。虽然其假设可能过于简朴，但在许多实际场景中，朴素贝叶斯分类器依然能够提供有效的分类...

机器学习实战(第四章-朴素贝叶斯-所有代码与详细注解及相关数据文件-python3.7)

12-09

在"机器学习实战"的第四章中，我们将深入探讨朴素贝叶斯的数学原理以及如何在Python中实现。朴素贝叶斯算法的“朴素”在于假设特征之间相互独立，这是简化模型的一种方式，但可能并不总是符合实际情况。尽管如此，该...

全套清华大学数据分析统计学系列课程 04 第四章 朴素贝叶斯法（共17页）.rar

09-29

本章课程是清华大学数据分析与统计学系列课程的一部分，详细讲解了朴素贝叶斯法的基本概念、原理及其在实际问题中的应用。 ### 一、朴素贝叶斯法概述 朴素贝叶斯法基于贝叶斯定理，它假设特征之间相互独立，即每个...

全套清华大学数据分析统计学系列课程 04 第四章 朴素贝叶斯法（共17页）.pptx

09-21

在清华大学的大数据和统计学系列课程中，第四章详细讲解了朴素贝叶斯法的学习与分类以及参数估计。首先，朴素贝叶斯法的学习与分类基于贝叶斯定理，它通过训练数据集来学习联合概率分布P(X,Y)，并进一步推导出先验...

统计学习方法——第4章 朴素贝叶斯法

qq_37172182的博客

08-05 252

朴素贝叶斯法（naive Bayes）： 朴素贝叶斯法是基于贝叶斯理论与特征条件独立假设的分类方法。对于给定的数据集，基于特征条件独立假设学习输入/输出的联合概率分布，然后基于此模型，对给定的输入，利用贝叶斯定理求解最大化后验概率的输出。 4.1 学习策略：设输入空间为n维向量的集合，输出空间为类别标记的集合，，是定义在输入空间的随机向量，是定义在输出空...

统计学习方法——第4章 朴素贝叶斯法（个人笔记）

pk296256948的博客

04-06 654

统计学习方法——第4章 朴素贝叶斯法（个人笔记）参考《统计学习方法》（第二版）李航 朴素贝叶斯法：基于贝叶斯定理与特征条件独立假设的分类方法。 4.1 朴素贝叶斯法的学习与分类 4.1.1 基本方法训练数据集先学习先验概率分布及条件概率分布先验概率分布条件概率分布这样学习到联合概率分布 朴素贝叶斯法的条件概率分布假设条件相互独立的即条件独立性 朴素贝叶斯法分类时，对给定的输入x，通过学习到的模型计算后验概率分布，将后验概率最大的类作为x的类输出。后验

朴素贝叶斯算法

星辰的博客

08-22 1556

简介 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入输出的联合概率分布；然后基于此模型，对给定的输入x，利用贝叶斯定理求出后验概率最大的输出Y。朴素贝叶斯法实现简单，学习和预测的效率都很高，是一种常用的方法。关键理论或技术技术计算先验概率及条件概率对于给定的实例x，计算 P(Y=c_k)∏_(j=1)^n▒P(X(j)=├ x(j)┤|Y=c_k ) 确定实例X的类（1）朴素贝叶斯法是典型的生成学习方法。生成方法由训练数据学习联合概率

统计学习方法学习笔记（九）：朴素贝叶斯法

weixin_30820151的博客

03-03 85

今天来了解一下比较有名的相对简单的生成模型——朴素贝叶斯法 朴素贝叶斯法中的朴素指的是什么呢？指的是简单，那么为啥它是简单的呢？因为它有一个很强的假设：特征条件独立 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布；然后基于此模型，对给定的输入$x$，利用贝叶斯定理求出后验概率最大的输出$y$。贝叶...

朴素贝叶斯方法

anghua4068的博客

10-12 171

目录 贝叶斯公式极大似然估计 贝叶斯估计 朴素贝叶斯算法频率 VS 概率 贝叶斯公式 贝叶斯公式： \[P(A|B)=\frac{P(B|A)P(A)}{P(B)}\] 在$B$出现的前提下$A$出现的概率，等于$A$和\...

朴素贝叶斯法（Naive Bayes，NB）

Michael是个半路程序员

01-18 1506

@[toc] ## 1. 朴素贝叶斯法的学习与分类 ### 1.1 基本方法 - 输入空间 $\chi \subseteq R^n$ , n维向量的集合 - 输出空间：类标记集合 $Y'=\{c_1,c_2,...c_k\}$ - 输入：特征向量 $x \in \chi$ - 输出：类标记 $y \in Y'$ - $X$ 是空间 $\chi$ 上的随机向量 - $Y$ 是输出空间 $Y'$ 上的随机变量 - 训练数据集 $T=\{(x_1,y_1),(x_2,y_2),...(x_N,y_N)\}$ 由

【朴素贝叶斯】实战朴素贝叶斯_文本分类

云计算?

09-06 166

【文本分类】文本分类是经典的NLP问题，就是把一个文本自动分到若干个类别之一当中。类别可以是政治、经济、女性、财经等，既可以用字符串形式表示，也可以内部用整数形式来表示。对于我的文本过滤问题，则类别只有两个：不应该过滤和应该过滤。接下来是文本表示问题，即用什么量来代表一个文本，从而可以区别其他文本。通常是用“特征词”来表示。特征词是一些经过挑选的词语（特征选择问题我们后面再详细讲），这些词...

第 4 章 朴素贝叶斯法

qq_44587855的博客

01-17 691

朴素贝叶斯（naive Bayes）法是基于贝叶斯定理与特征条件独立假设的分类方法，对于给定的训练数据集：首先基于特征条件独立假设学习输入 / 输出的联合概率分布：然后基于此模型，对给定的输入 x ，利用贝叶斯定理求出后验概率最大的输出 y 。 朴素贝叶斯法实现简单，学习与预测的效率都很高，是一种常用的方法。 4.1 朴素贝叶斯法的学习与分类 4.3.1 ：基本方法条件概率分布 p...

朴素贝叶斯笔记

DaMeng999的博客

10-28 172

目录 1. 原理 2. 参数估计 2.1 极大似然估计 2.2 算法流程 2.3 贝叶斯估计 朴素贝叶斯时基于贝叶斯定理与特征条件独立假设的分类方法。对给定的训练集，首先基于特征条件独立假设学习输入输出的联合概率分布；然后基于此模型对给定的输入 x 利用贝叶斯定理求出后验概率最大的输出 y。 1. 原理假定输入空间是 n 维的向量集合，输出空间为类标记集合。X 是定义在输入空间上的随机向量，Y 是定义在输出空间上的随机变量。P(X, Y) 是 X 和 Y...

机器学习基础：从统计学习到朴素贝叶斯法

"第四章机器学习主要讲解了机器学习的基本概念、方法、三要素以及实际应用，并深入探讨了朴素贝叶斯分类法。" 在人工智能领域，机器学习是至关重要的一个分支，它允许计算机系统通过执行特定过程来提升其性能。西蒙...