机器学习||贝叶斯
1.贝叶斯方法
假设有C个类别,记为
{
w
1
,
w
2
,
.
.
.
,
w
j
,
.
.
.
w
C
}
\{w_1,w_2,...,w_j,...w_C\}
{w1,w2,...,wj,...wC},有样本
x
x
x。分类器的分类错误概率是指
x
x
x被分类成错误类的概率,用公式表达如下:
p
(
e
r
r
o
r
∣
x
)
=
∑
j
p
(
w
j
∣
x
)
,
f
o
r
x
∈
w
i
,
i
≠
j
p(error|x)=\sum _jp(w_j|x), for\space x\in w_i,i\neq j
p(error∣x)=j∑p(wj∣x),for x∈wi,i=j所以对于
∀
i
,
x
∈
w
i
\forall i,x\in w_i
∀i,x∈wi
p
(
c
o
r
r
e
c
t
∣
x
)
=
1
−
p
(
e
r
r
o
r
∣
x
)
=
1
−
∑
j
,
j
≠
i
p
(
w
j
∣
x
)
=
p
(
w
i
∣
x
)
p(correct|x)=1-p(error|x)=1-\sum _{j,j\neq i}p(w_j|x)=p(w_i|x)
p(correct∣x)=1−p(error∣x)=1−j,j=i∑p(wj∣x)=p(wi∣x)从分类错误概率应该尽可能小、分类正确概率尽可能大的原则出发,我们应该选择
p
(
w
i
∣
x
)
p(w_i|x)
p(wi∣x)最大的类别
i
i
i作为判断类别。即:
c
l
a
s
s
=
arg max
i
p
(
w
i
∣
x
)
class=\mathop {\argmax_{i}} p(w_i|x)
class=iargmaxp(wi∣x)
进一步,根据贝叶斯公式,有
c
l
a
s
s
=
arg max
i
p
(
w
i
∣
x
)
=
arg max
i
p
(
x
∣
w
i
)
p
(
w
i
)
class=\mathop {\argmax_{i}} p(w_i|x)=\mathop {\argmax_{i}} p(x|w_i)p(w_i)
class=iargmaxp(wi∣x)=iargmaxp(x∣wi)p(wi)
2.朴素贝叶斯方法
在贝叶斯方法中,需要计算
p
(
x
∣
w
i
)
=
p
(
x
1
,
x
2
,
.
.
.
,
x
k
,
.
.
.
,
x
d
∣
w
i
)
p(x|w_i)=p(x_1,x_2,...,x_k,...,x_d|w_i)
p(x∣wi)=p(x1,x2,...,xk,...,xd∣wi),其中
x
k
x_k
xk表示样本
x
x
x的第
k
k
k维特征,因此随着样本的
x
x
x的特征维度和每维特征的状态增加,
p
(
x
∣
w
i
)
p(x|w_i)
p(x∣wi)的计算空间是呈指数增加的,计算量巨大,因此在朴素贝叶斯中,认为样本的每维特征是相互独立的,即
p
(
x
∣
w
i
)
=
∏
k
d
p
(
x
k
∣
w
i
)
p(x|w_i)=\prod_k^d p(x_k|w_i)
p(x∣wi)=k∏dp(xk∣wi)所以在朴素贝叶斯中,判别方式变为:
c
l
a
s
s
=
=
arg max
i
p
(
x
∣
w
i
)
p
(
w
i
)
=
arg max
i
∏
k
d
p
(
x
k
∣
w
i
)
p
(
w
i
)
class==\mathop {\argmax_{i}} p(x|w_i)p(w_i)=\mathop {\argmax_{i}} \prod_k^d p(x_k|w_i)p(w_i)
class==iargmaxp(x∣wi)p(wi)=iargmaxk∏dp(xk∣wi)p(wi)
3.拉普拉斯平滑
在前面的讨论中,需要用到各个状态组合的概率,然而训练集中有可能没有这些组合,导致统计出对应的概率为零,影响分类性能,因此,提出拉普拉斯平滑,缓减该因素带来的负面影响。
- 条件概率
p
(
x
k
∣
w
i
)
p(x_k|w_i)
p(xk∣wi)
p ( x k ∣ w i ) = ∑ i = 1 N I ( x k i = a j l , y i = w i ) + γ ∑ i = 1 N I ( y i = w i ) + L k ∗ γ p(x_k|w_i)=\frac{\sum_{i=1}^NI(x_k^i=a_{jl},y^i=w_i)+\gamma}{\sum_{i=1}^NI(y^i=w_i)+L_k*\gamma} p(xk∣wi)=∑i=1NI(yi=wi)+Lk∗γ∑i=1NI(xki=ajl,yi=wi)+γ其中 γ ⩾ 0 \gamma\geqslant 0 γ⩾0, L k L_k Lk是指第 k k k维特征的状态数。 - 先验概率
p
(
w
i
)
p(w_i)
p(wi)
p ( w i ) = ∑ i = 1 N I ( y i = w i ) + γ N + C ∗ γ p(w_i)=\frac{\sum_{i=1}^NI(y^i=w_i)+\gamma}{N+C*\gamma} p(wi)=N+C∗γ∑i=1NI(yi=wi)+γ I I I是示性函数,即
I ( x = y ) = { 1 , x = y 0 , x ≠ y I(x=y)=\left\{ \begin{matrix} 1 ,& x=y\\ 0,& x\neq y \end{matrix}\right. I(x=y)={1,0,x=yx=y