第四章 朴素贝叶斯法
4.1 基本介绍
朴素贝叶斯(naive Bayes)法是基于贝叶斯定理与特征条件独立假设的分类方法【注意:朴素贝叶斯法与贝叶斯估计是不同的概念】,其是一种典型的生成学习方法。生成方法由训练数据学习联合概率分布
P
(
X
,
Y
)
P(X,Y)
P(X,Y),然后求得后验概率分布
P
(
Y
∣
X
)
P(Y|X)
P(Y∣X)。具体来说,利用训练数据学习
P
(
X
∣
Y
)
P(X|Y)
P(X∣Y)和
P
(
Y
)
P(Y)
P(Y)的估计,得到联合概率分布:
P
(
X
,
Y
)
=
P
(
Y
)
P
(
X
∣
Y
)
P(X,Y)=P(Y)P(X|Y)
P(X,Y)=P(Y)P(X∣Y)
概率估计的方法可以是极大似然估计或贝叶斯估计。
4.2 基本假设
朴素贝叶斯法的基本假设是条件独立性,即:
$$
\begin{equation*} %加表示不对公式编号
\begin{split}
P(X=x|Y=c_k)
& = P(X{(1)}=x{(1)},…,X{(n)}=x{(n)}|Y=c_{k)} \
& = \prod_{i=1}^n P(X{(j)}=x{(j)}|Y=c_{k)}}
\end{split}
\end{equation}
$$
这是一个比较强的假设。由于这一假设,模型包含的条件概率的数量大为减少,朴素贝叶斯法的学习与预测大为简化。因而朴素贝叶斯法高效,且易于实现。其缺点是分类的性能不一定很高。【这里的更加朴素的理解是A被分类成正类和负类的两个事件是独立的】。如果假设朴素贝叶斯法中的假设输入变量都是条件是不独立的,那么此时,模型就变成了贝叶斯网络。
4.3 基本方法
朴素贝叶斯法分类时,对于给定的输入
x
x
x,通过学习到的模型计算后验概率分布
P
(
Y
=
c
k
∣
X
=
x
)
P(Y=c_k|X=x)
P(Y=ck∣X=x),将后验概率最大的类作为
x
x
x的类的输出。后验概率计算根据贝叶斯定理进行:
P
(
Y
=
c
k
∣
X
=
x
)
=
P
(
X
=
x
∣
Y
=
c
k
)
P
(
Y
=
c
k
)
∑
k
P
(
X
=
x
∣
Y
=
c
k
)
P
(
Y
=
x
k
)
P(Y=c_k|X=x)= \frac{P(X=x|Y=c_k)P(Y=c_k)}{\sum_{k}P(X=x|Y=c_k)P(Y=x_k)}
P(Y=ck∣X=x)=∑kP(X=x∣Y=ck)P(Y=xk)P(X=x∣Y=ck)P(Y=ck)
将4.2式中假设带入到4.3中即得以下表达式:
$$
\begin{equation}\tag{k=1,2,…,K}
P(Y=c_k|X=x)=\frac{P(Y=c_k)\prod_jP(X{(j)}=x{(j)}|Y=c_k)}{\sum\limits_kP(Y=x_k)\prod_{j}{P(X{(j)}}=x{(j)}|Y=c_{k})}
\end{equation}
这就是朴素贝叶斯法分类的的基本公式,朴素贝叶斯分类器可表示为
这就是朴素贝叶斯法分类的的基本公式,朴素贝叶斯分类器可表示为
这就是朴素贝叶斯法分类的的基本公式,朴素贝叶斯分类器可表示为
y=f(x)=
\underset{c_k}{argmax}
\frac
{P(Y=c_k)\underset{j}{\prod}P(X{(j)}=x{(j)}|Y=c_k)}
{\underset{k}{\sum\limits}P(Y=c_k)\underset{j}{\prod}P(X{(j)}=x{(j)}|Y=c_j)}
KaTeX parse error: Can't use function '$' in math mode at position 17: …事实上,上面表达式中分母对所有$̲c_k$都是相同的,所以有
\begin{equation}\tag{⭐️}
y=\underset{c_k}{argmax}
P(Y=c_k)
\underset
{j}
{\prod }{P(X{(j)}=x{(j)}|Y=c_k)}
\end{equation}
$$
同时,可证明后验概率最大化的含义就等价于风险最小化
4.4 朴素贝叶斯法的参数估计
通过上面⭐️式,可以知道需要分别求 P ( Y = c k ) P(Y=c_k) P(Y=ck)以及 P ( X ( j ) = x ( j ) ∣ Y = c k ) P(X^{(j)}=x^{(j)}|Y=c_k) P(X(j)=x(j)∣Y=ck)。这里主要有两种估计方法:极大似然估计和贝叶斯估计。
4.5 案列
对于上面公式的理解可能会有一点苦难,在下面的例子中分别用这两种方法来具体演示:根据下面的训练数据学习一个朴素贝叶斯分类器并确定 x = ( 2 , S ) T x=(2,S)^{T} x=(2,S)T的类标记 y y y。表中 X ( 1 ) 和 X ( 2 ) X^{(1)}和X^{(2)} X(1)和X(2)为特征,Y为目标。
4.5.1 使用极大似然估计
由上表易计算下列概率:
P
(
Y
=
1
)
=
9
15
,
P
(
Y
=
−
1
)
=
6
15
P(Y=1)=\frac{9}{15},P(Y=-1)=\frac{6}{15}
P(Y=1)=159,P(Y=−1)=156
P
(
X
(
1
)
=
1
∣
Y
=
1
)
=
2
9
,
P
(
X
(
1
)
=
2
∣
Y
=
1
)
=
3
9
,
P
(
X
(
1
)
=
3
∣
Y
=
1
)
=
4
9
P(X^{(1)}=1|Y=1)=\frac{2}{9},P(X^{(1)}=2|Y=1)=\frac{3}{9},P(X^{(1)}=3|Y=1)=\frac{4}{9}
P(X(1)=1∣Y=1)=92,P(X(1)=2∣Y=1)=93,P(X(1)=3∣Y=1)=94
P
(
X
(
2
)
=
S
∣
Y
=
1
)
=
1
9
,
P
(
X
(
2
)
=
M
∣
Y
=
1
)
=
4
9
,
P
(
X
(
2
)
=
L
∣
Y
=
1
)
=
4
9
P(X^{(2)}=S|Y=1)=\frac{1}{9},P(X^{(2)}=M|Y=1)=\frac{4}{9},P(X^{(2)}=L|Y=1)=\frac{4}{9}
P(X(2)=S∣Y=1)=91,P(X(2)=M∣Y=1)=94,P(X(2)=L∣Y=1)=94
P
(
X
(
1
)
=
1
∣
Y
=
−
1
)
=
3
6
,
P
(
X
(
1
)
=
2
∣
Y
=
−
1
)
=
2
6
,
P
(
X
(
1
)
=
3
∣
Y
=
−
1
)
=
1
6
P(X^{(1)}=1|Y=-1)=\frac{3}{6},P(X^{(1)}=2|Y=-1)=\frac{2}{6},P(X^{(1)}=3|Y=-1)=\frac{1}{6}
P(X(1)=1∣Y=−1)=63,P(X(1)=2∣Y=−1)=62,P(X(1)=3∣Y=−1)=61
P
(
X
(
2
)
=
S
∣
Y
=
−
1
)
=
3
6
,
P
(
X
(
2
)
=
M
∣
Y
=
−
1
)
=
2
6
,
P
(
X
(
2
)
=
L
∣
Y
=
−
1
)
=
1
6
P(X^{(2)}=S|Y=-1)=\frac{3}{6},P(X^{(2)}=M|Y=-1)=\frac{2}{6},P(X^{(2)}=L|Y=-1)=\frac{1}{6}
P(X(2)=S∣Y=−1)=63,P(X(2)=M∣Y=−1)=62,P(X(2)=L∣Y=−1)=61
对于给定的
x
=
(
2
,
S
)
T
x=(2,S)^{T}
x=(2,S)T计算:
P
(
Y
=
1
)
P
(
X
(
1
)
=
2
∣
Y
=
1
)
P
(
X
(
2
)
=
S
∣
Y
=
1
)
=
9
15
∙
3
9
∙
1
9
=
1
45
P(Y=1)P(X^{(1)}=2|Y=1)P(X^{(2)}=S|Y=1)=\frac{9}{15}\bullet\frac{3}{9}\bullet\frac{1}{9}=\frac{1}{45}
P(Y=1)P(X(1)=2∣Y=1)P(X(2)=S∣Y=1)=159∙93∙91=451
P
(
Y
=
−
1
)
P
(
X
(
1
)
=
2
∣
Y
=
−
1
)
P
(
X
(
2
)
=
S
∣
Y
=
−
1
)
=
6
15
∙
2
6
∙
3
6
=
1
15
P(Y=-1)P(X^{(1)=2}|Y=-1)P(X^{(2)}=S|Y=-1)=\frac{6}{15}\bullet\frac{2}{6}\bullet\frac{3}{6}=\frac{1}{15}
P(Y=−1)P(X(1)=2∣Y=−1)P(X(2)=S∣Y=−1)=156∙62∙63=151
显然根据上面式子的计算,后者更大,根据朴素贝叶斯法是将实例分到后验概率最大的类中的原理,故
y
=
−
1
y=-1
y=−1
4.5.2 使用贝叶斯估计
同理,在使用贝叶斯估计下有以下表达式:
P
(
Y
=
1
)
=
10
17
,
P
(
Y
=
−
1
)
=
7
17
P(Y=1)=\frac{10}{17},P(Y=-1)=\frac{7}{17}
P(Y=1)=1710,P(Y=−1)=177
P
(
X
(
1
)
=
2
∣
Y
=
1
)
=
4
12
,
P
(
X
(
1
)
=
2
∣
Y
=
−
1
)
=
3
9
P(X^{(1)}=2|Y=1)=\frac{4}{12},P(X^{(1)}=2|Y=-1)=\frac{3}{9}
P(X(1)=2∣Y=1)=124,P(X(1)=2∣Y=−1)=93
P
(
X
(
2
)
=
S
∣
Y
=
1
)
=
2
12
,
P
(
X
(
2
)
=
S
∣
Y
=
−
1
)
=
4
9
P(X^{(2)}=S|Y=1)=\frac{2}{12},P(X^{(2)}=S|Y=-1)=\frac{4}{9}
P(X(2)=S∣Y=1)=122,P(X(2)=S∣Y=−1)=94
对于给定的
x
=
(
2
,
S
)
T
x=(2,S)^T
x=(2,S)T计算:
P
(
Y
=
1
)
P
(
X
(
1
)
=
2
∣
Y
=
1
)
P
(
X
(
2
)
=
S
∣
Y
=
1
)
=
10
17
∙
4
12
∙
2
12
=
5
153
=
0.0327
P(Y=1)P(X^{(1)}=2|Y=1)P(X^{(2)}=S|Y=1)=\frac{10}{17}\bullet \frac{4}{12} \bullet \frac{2}{12}=\frac{5}{153}=0.0327
P(Y=1)P(X(1)=2∣Y=1)P(X(2)=S∣Y=1)=1710∙124∙122=1535=0.0327
P
(
Y
=
−
1
)
P
(
X
(
1
)
=
2
∣
Y
=
−
1
)
P
(
X
(
2
)
=
S
∣
Y
=
−
1
)
=
7
17
∙
3
9
∙
4
9
=
28
459
=
0.0610
P(Y=-1)P(X^{(1)}=2|Y=-1)P(X^{(2)}=S|Y=-1)=\frac{7}{17} \bullet \frac{3}{9} \bullet \frac{4}{9}=\frac{28}{459}=0.0610
P(Y=−1)P(X(1)=2∣Y=−1)P(X(2)=S∣Y=−1)=177∙93∙94=45928=0.0610
显然根据上面式子的计算,后者更大,根据朴素贝叶斯法是将实例分到后验概率最大的类中的原理,故
y
=
−
1
y=-1
y=−1