机器学习 - 朴素贝叶斯法

最新推荐文章于 2024-07-25 08:20:58 发布

空空的司马

最新推荐文章于 2024-07-25 08:20:58 发布

阅读量1.2k

点赞数 1

分类专栏：【机器学习】文章标签：机器学习朴素贝叶斯

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/Robin__Chou/article/details/52142007

版权

【机器学习】专栏收录该内容

4 篇文章 0 订阅

订阅专栏

博客内容源于《统计机器学习》一书的阅读笔记。Python的源码实现源于《机器学习实战》部分内容。

首先，需要回顾下面的三个重要的公式：

条件概率：
$P (A | B) = P ( A B ) P ( B )$ $P(A|B) = \frac{P(AB)}{P(B)}$
全概率公式:
$P (A) = \sum i P (A | B i) P (B i)$ $P(A) = \sum_{i}P(A|B_{i})P(B_{i})$
贝叶斯(Bayes)公式:
$P (B i | A) = P ( A | B i ) P ( B i ) \sum i P ( A | B i ) P ( B i )$ $P(B_{i}|A) = \frac{P(A|B_{i})P(B_{i})}{\sum_{i}P(A|B_{i})P(B_{i})}$

1. 朴素贝叶斯法的学习

朴素贝叶斯（naive bayes）法是基于贝叶斯定理与条件独立假设的分类方法。朴素贝叶斯基于两个重要的假设建立的：

1. 一个特征出现的概率与其他特征（条件）独立；(特征独立性)
2. 每个特征同等重要。(特征均衡性)

【算法描述】
设输入空间 $\mathcal{X} \subseteq R^{n}$ 为 $n$ 维向量的集合，输出空间为类标记集合 $\mathcal{Y} = \{c_{1},c_{2},...,c_{k}\}$ 。输入为特征向量 $x \in \mathcal{X}$ , 输出为标记 $y \in \mathcal{Y}$ 。 $X$ 是定义在输入空间 $\mathcal{X}$ 上的随机向量， $Y$ 是定义在输出空间 $\mathcal{Y}$ 上的随机向量。 $P(X,Y)$ 是 $X,Y$ 的联合概率分布。训练数据集

T = {(x 1, y 1), (x 2, y 2), . . ., (x N, y N)}

$T=\{(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{N},y_{N})\}$
由

P(X,Y) $P(X,Y)$ 独立同分布产生。
朴素贝叶斯法通过训练数据集学习联合概率分布

P(X,Y) $P(X,Y)$ 。先验概率分布：

P (Y = c k), k = 1, 2, . . ., K

$P(Y=c_{k}),k=1,2,...,K$
条件概率分布：

P (X = x | Y = c k) = P (X (1) = x (1), . . ., X n = x n | Y = c k), k = 1, 2, . . ., k

$P(X=x|Y=c_{k}) = P(X^{(1)} = x^{(1)},...,X^{n}=x^{n}|Y=c_{k}), k=1,2,...,k$
于是学习到联合概率分布

P(X,Y) $P(X,Y)$ 。

【分类】
朴素贝叶斯法分类时，对给定的输入 $x$ ，通过学习到的模型计算后验概率分布 $P(Y=c_{k}|X=x)$ ，将后验概率最大的类作为x类的输出。后验概率计算根据贝叶斯定理进行：

P (Y = c k | X = x) = P ( X = x | Y = c k ) P ( Y = c k ) \sum i P ( X = x | Y = c k ) P ( Y = c k )

$P(Y=c_{k}|X=x) = \frac{P(X=x|Y=c_{k})P(Y=c_{k})}{\sum_{i}P(X=x|Y=c_{k})P(Y=c_{k})}$
由于前面已经假设了特征独立，所以有：

P (X = x | Y = c k) = P (X (1) = x (1), . . ., X (n) = x (n) | Y = c k) = \prod j = 1 n P (X (j) = x (j) | Y = c k)

$P(X=x|Y=c_{k})=P(X^{(1)} = x^{(1)},...,X^{(n)} = x^{(n)} | Y=c_{k})=\prod_{j=1}^{n}P(X^{(j)} = x^{(j)} | Y=c_{k})$
将上式带入到

P(Y=ck|X=x) $P(Y=c_{k}|X=x)$ 中，得到(朴素贝叶斯的基本公式)：

P (Y = c k | X = x) = P ( Y = c k ) \prod n j = 1 P ( X ( j ) = x ( j ) | Y = c k ) \sum i P ( Y = c k ) \prod n j = 1 P ( X ( j ) = x ( j ) | Y = c k ) k = 1, 2, . . ., K

$P(Y=c_{k}|X=x) = \frac{P(Y=c_{k})\prod_{j=1}^{n}P(X^{(j)} = x^{(j)} | Y=c_{k})}{\sum_{i}P(Y=c_{k})\prod_{j=1}^{n}P(X^{(j)} = x^{(j)} | Y=c_{k})}\\k=1,2,...,K$
那么，朴素贝叶斯分类器就可以表示为：

y = f (x) = arg max c k P (Y = c k | X = x) = arg max c k P ( Y = c k ) \prod n j = 1 P ( X ( j ) = x ( j ) | Y = c k ) \sum i P ( Y = c k ) \prod n j = 1 P ( X ( j ) = x ( j ) | Y = c k ) k = 1, 2, . . ., K

$y=f(x)=\arg \max_{c_{k}} P(Y=c_{k}|X=x) \\=\arg \max_{c_{k}} \frac{P(Y=c_{k})\prod_{j=1}^{n}P(X^{(j)} = x^{(j)} | Y=c_{k})}{\sum_{i}P(Y=c_{k})\prod_{j=1}^{n}P(X^{(j)} = x^{(j)} | Y=c_{k})}\\k=1,2,...,K$
由于上述表示中的分母对于所有的

ck $c_{k}$ 都是相同的，所以可以略去分母，表示成：

arg max c k P (Y = c k) \prod j = 1 n P (X (j) = x (j) | Y = c k) k = 1, 2, . . ., K

$\arg \max_{c_{k}} P(Y=c_{k})\prod_{j=1}^{n}P(X^{(j)} = x^{(j)} | Y=c_{k})\\k=1,2,...,K$

先验概率 ( Prior probability)
先验概率是在缺乏某个事实的情况下描述一个变量; 而后验概率是在考虑了一个事实之后的条件概率. 先验概率通常是经验丰富的专家的纯主观的估计.

后验概率 ( posterior probability)
后验概率是指通过调查或其它方式获取新的附加信息，利用贝叶斯公式对先验概率进行修正，而后得到的概率。

2. 朴素贝叶斯法使用流程

计算先验概率和条件概率
$P (Y = c k) = \sum N i = 1 I ( y i = c k ) N, k = 1, 2, . . ., K . P (X (j) = a j l | Y = c k) = \sum N i = 1 I ( x ( j ) i , y i = c k ) \sum N i = 1 I ( y i = c k ) j = 1, 2, . . ., n; l = 1, 2, . . ., S j; k = 1, 2, . . ., K$ $P(Y=c_{k}) = \frac{ \sum^{N}_{i=1}I(y_{i}=c_{k})}{N},k=1,2,...,K.\\ P(X^{(j)}=a_{jl}|Y=c_{k}) = \frac{\sum^{N}_{i=1}I(x_{i}^{(j)},y_{i}=c_{k})}{\sum_{i=1}^{N}I(y_{i}=c_{k})}\\ j=1,2,...,n;\\ l=1,2,...,S_{j};\\ k=1,2,...,K$
对于给定的实例 $x=(x^{(1)},x^{(2)},...,x^{(n)})^{T}$ ，计算:
$P (Y = c k) \prod j = 1 n P (X (j) = x (j) | Y = c k) k = 1, 2, . . ., K$ $P(Y=c_{k})\prod_{j=1}^{n}P(X^{(j)} = x^{(j)} | Y=c_{k})\\k=1,2,...,K$
确定实例 $x$ 的分类
$y = arg max c k P (Y = c k) \prod j = 1 n P (X (j) = x (j) | Y = c k) k = 1, 2, . . ., K$ $y=\arg \max_{c_{k}} P(Y=c_{k})\prod_{j=1}^{n}P(X^{(j)} = x^{(j)} | Y=c_{k})\\k=1,2,...,K$

3. 举例

首先计算先验概率和条件概率
$P (Y = 1) = 9 15 ， P (Y = - 1) = 6 15 P (X (1) = 1 | Y = 1) = 2 9 ， P (X (1) = 2 | Y = 1) = 3 9 ， P (X (1) = 3 | Y = 1) = 4 9 P (X (2) = S | Y = 1) = 1 9 ， P (X (2) = M | Y = 1) = 4 9 ， P (X (2) = L | Y = 1) = 4 9 P (X (1) = 1 | Y = - 1) = 3 6 ， P (X (1) = 2 | Y = - 1) = 2 6 ， P (X (1) = 3 | Y = - 1) = 1 6 P (X (2) = S | Y = - 1) = 3 6 ， P (X (2) = M | Y = - 1) = 2 6 ， P (X (2) = L | Y = - 1) = 1 6$ $P(Y=1) = \frac{9}{15}，P(Y=-1) = \frac{6}{15}\\ P(X^{(1)}=1|Y=1) = \frac{2}{9}，P(X^{(1)}=2|Y=1) = \frac{3}{9}，P(X^{(1)}=3|Y=1) = \frac{4}{9}\\ P(X^{(2)}=S|Y=1) = \frac{1}{9}，P(X^{(2)}=M|Y=1) = \frac{4}{9}，P(X^{(2)}=L|Y=1) = \frac{4}{9}\\ P(X^{(1)}=1|Y=-1) = \frac{3}{6}，P(X^{(1)}=2|Y=-1) = \frac{2}{6}，P(X^{(1)}=3|Y=-1) = \frac{1}{6}\\ P(X^{(2)}=S|Y=-1) = \frac{3}{6}，P(X^{(2)}=M|Y=-1) = \frac{2}{6}，P(X^{(2)}=L|Y=-1) = \frac{1}{6}\\$
对于给定的 $x=(2,S)^{T}$ 计算：
$P (Y = 1) P (X (1) = 2 | Y = 1) P (X (2) = S | Y = 1) = 9 15 \cdot 3 9 \cdot 1 9 = 1 45 P (Y = - 1) P (X (1) = 2 | Y = - 1) P (X (2) = S | Y = - 1) = 6 15 \cdot 2 6 \cdot 3 6 = 1 15$ $P(Y=1)P(X^{(1)}=2|Y=1)P(X^{(2)}=S|Y=1) = \frac{9}{15} \centerdot \frac{3}{9} \centerdot \frac{1}{9} = \frac{1}{45}\\ P(Y=-1)P(X^{(1)}=2|Y=-1)P(X^{(2)}=S|Y=-1) = \frac{6}{15} \centerdot \frac{2}{6} \centerdot \frac{3}{6} = \frac{1}{15}$
根据得出的概率，取得最大的概率的类，所以: $y = - 1.$ $y=-1.$

空空的司马

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
机器学习 - 朴素贝叶斯法

博客内容源于《统计机器学习》一书的阅读笔记。Python的源码实现源于《机器学习实战》部分内容。首先，需要回顾下面的三个重要的公式：条件概率： P(A|B)=P(AB)P(B)P(A|B) = \frac{P(AB)}{P(B)} 全概率公式: P(A)=∑iP(A|Bi)P(Bi)P(A) = \sum_{i}P(A|B_{i})P(B_{i}) 贝叶斯(Baye
复制链接

扫一扫