朴素贝叶斯分类器
朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。
先验概率:当事情还未发生时,这件事情发生的概率。
后验概率:当事情发生后,这件事情由某个原因引起的概率。
先验概率难以获得,需要基于有限的训练样本尽可能的估计出后验概率。
基础知识:
全概率:
P
(
B
)
=
∑
i
=
1
n
P
(
A
i
)
P
(
B
∣
A
i
)
P(B)=\sum_{i=1}^{n}P(A_{i})P(B|A_{i})
P(B)=i=1∑nP(Ai)P(B∣Ai)
条件概率:
P
(
A
∣
B
)
=
P
(
A
⋂
B
)
P
(
B
)
P(A|B)=\frac{P(A\bigcap B)}{P(B)}
P(A∣B)=P(B)P(A⋂B)
贝叶斯公式:
p
(
B
∣
A
i
)
=
P
(
B
)
P
(
A
i
∣
B
)
P
(
B
)
p(B|A_{i})=\frac{P(B)P(A_{i}|B)}{P(B)}
p(B∣Ai)=P(B)P(B)P(Ai∣B)
极大似然估计:
分类器:
基于有限的训练样本集尽可能的估计出后验概率
P
(
c
i
∣
x
)
P(c_{i}|\mathbf{x})
P(ci∣x)。(后验概率就是求样本
x
\mathbf{x}
x的类别为
c
i
c_{i}
ci的概率)
P
(
c
i
∣
x
)
=
P
(
c
i
)
P
(
x
∣
c
i
)
P
(
x
)
P(c_{i}|\mathbf{x})=\frac{P(c_{i})P(\mathbf{x}|c_{i})}{P(\mathbf{x})}
P(ci∣x)=P(x)P(ci)P(x∣ci)
P
(
c
i
)
P(c_{i})
P(ci)是类“先验”概率表示训练集样本空间中各类别的概率分布,
P
(
x
∣
c
i
)
P(\mathbf{x}|c_{i})
P(x∣ci)是样本
x
\mathbf{x}
x属于类别
c
i
c_{i}
ci的条件概率,
P
(
x
)
P(\mathbf{x})
P(x)类似于一种用来归一化的“分母”。
朴素贝叶斯分类器的一个重要假设:对于样本中的所有属性相互独立,即每个属性对于结果都同样重要。这在一定情况下是错误的,比如在句子分类中,你、我、他这种词是不重要,而情感词讨厌、高兴、快乐这些词比较重要看,但朴素贝叶斯对这些词在计算中都看作同等重要。
基于属性独立的假设,得到朴素贝叶斯分类器的表达式:
P
(
c
i
∣
x
)
=
P
(
c
i
)
P
(
x
∣
c
i
)
P
(
x
)
=
P
(
c
i
)
P
(
x
)
∏
j
=
1
d
P
(
x
j
∣
c
i
)
P(c_{i}|\mathbf{x})=\frac{P(c_{i})P(\mathbf{x}|c_{i})}{P(\mathbf{x})}=\frac{P(c_{i})}{P(\mathbf{x})}\prod_{j=1}^{d}P(x_{j}|c_{i})
P(ci∣x)=P(x)P(ci)P(x∣ci)=P(x)P(ci)j=1∏dP(xj∣ci)
d
d
d为属性数目,
x
\mathbf{x}
x是输入样本,
x
j
x_{j}
xj表示输入样本在第
j
j
j个属性上的取值,
c
i
c_{i}
ci表示类别。
P
(
c
i
)
=
∣
D
c
i
∣
∣
D
∣
P(c_{i})=\frac{|D_{c_{i}}|}{|D|}
P(ci)=∣D∣∣Dci∣
∣
D
∣
|D|
∣D∣表示训练集的大小,
∣
D
c
i
∣
|D_{c_{i}}|
∣Dci∣表示属于类别
D
i
D_{i}
Di的样本集的大小。
P
(
x
j
∣
c
i
)
=
∣
D
c
i
,
x
j
∣
∣
D
c
i
∣
P(x_{j}|c_{i})=\frac{|D_{c_{i},x_{j}}|}{|D_{c_{i}}|}
P(xj∣ci)=∣Dci∣∣Dci,xj∣
∣
D
c
i
,
x
j
∣
|D_{c_{i},x_{j}}|
∣Dci,xj∣表示样本集
D
c
i
D_{c_{i}}
Dci中第
j
j
j个属性上取值为
x
j
x_{j}
xj的样本集大小。
上述公式是在属性为离散值时,当属性值为连续值时,呈高斯分布:
P
(
x
j
∣
c
i
)
=
1
2
π
σ
c
i
,
j
e
x
p
(
−
(
x
j
−
μ
c
i
,
j
)
2
2
σ
c
i
,
j
2
)
P(x_{j}|c_{i})=\frac{1}{\sqrt{2\pi}\sigma _{c_{i},j}}exp(-\frac{(x_{j}-\mu _{c_{i},j})^{2}}{2\sigma _{c_{i},j}^{2}})
P(xj∣ci)=2πσci,j1exp(−2σci,j2(xj−μci,j)2)
σ
c
i
,
j
\sigma _{c_{i},j}
σci,j表示第
c
i
c_{i}
ci类样本在第
j
j
j个属性取值的标准差,
u
c
i
,
j
u _{c_{i},j}
uci,j表示在第
c
i
c_{i}
ci类样本在第
j
j
j个属性取值的均值。
求出样本在每个类别
c
c
c下的概率,概率最大的类别就是所属类别。