一、贝叶斯决策论
设输入空间 X ∈ R d \mathcal{X} \in \Bbb R^{d} X∈Rd是 d d d维向量的集合,输出空间为标签集合 Y = { c 1 , c 2 , … , c N } \mathcal{Y}=\left\{c_{1}, c_{2}, \dots, c_{N} \right\} Y={c1,c2,…,cN}, X X X是定义在输入空间上的随机变量, Y Y Y是定义在输出空间上的随机变量, P ( X , Y ) P(X,Y) P(X,Y)是 X X X和 Y Y Y联合概率分布,训练集 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x m , y m ) } D=\left\{(\boldsymbol{x}_{1}, y_{1}), (\boldsymbol{x}_{2}, y_{2}), \dots, (\boldsymbol{x}_{m}, y_{m})\right\} D={(x1,y1),(x2,y2),…,(xm,ym)},由 P ( X , Y ) P(X,Y) P(X,Y)独立同分布地产生。
对于标签集合
y
=
{
c
1
,
c
2
,
…
,
c
N
}
\mathcal{y}=\left\{c_{1}, c_{2}, \dots, c_{N} \right\}
y={c1,c2,…,cN},
λ
i
j
\lambda_{ij}
λij是将一个真实标记为
c
j
c_{j}
cj的样本误分类为
c
i
c_{i}
ci所产生的损失。将
x
\boldsymbol{x}
x分类为
c
i
c_{i}
ci所产生的期望损失即条件风险为:
R
(
c
i
∣
x
)
=
∑
j
=
1
N
λ
i
j
P
(
c
j
∣
x
)
R\left(c_{i} | \boldsymbol{x}\right)=\sum_{j=1}^{N} \lambda_{i j} P\left(c_{j} | \boldsymbol{x}\right)
R(ci∣x)=j=1∑NλijP(cj∣x)
我们的目标是最小化总体风险:
R
(
h
)
=
E
x
[
R
(
h
(
x
)
∣
x
)
]
R(h)=\mathbb{E}_{\boldsymbol{x}}[R(h(\boldsymbol{x}) | \boldsymbol{x})]
R(h)=Ex[R(h(x)∣x)]
h
h
h为判定准则:
h
:
X
↦
Y
h : \mathcal{X} \mapsto \mathcal{Y}
h:X↦Y。
**贝叶斯判定准则:**为最小化总体风险,只需在每个样本上选择哪个能使条件风险
R
(
c
∣
x
)
R(c|\boldsymbol{x})
R(c∣x)最小的标签,即:
h
∗
(
x
)
=
arg
min
c
∈
Y
R
(
c
∣
x
)
h^{*}(\boldsymbol{x})=\underset{c \in \mathcal{Y}}{\arg \min } R(c | \boldsymbol{x})
h∗(x)=c∈YargminR(c∣x)
h
∗
h^{\ast}
h∗是贝叶斯最优分类器,
R
(
h
∗
)
R(h^{\ast})
R(h∗)是贝叶斯风险。
对于误判损失
λ
i
j
\lambda_{ij}
λij可以采用0-1损失:
λ
i
j
=
{
0
,
if
i
=
j
1
,
otherwise
\lambda_{i j}=\left\{\begin{array}{ll}{0,} & {\text { if } i=j} \\ {1,} & {\text { otherwise }}\end{array}\right.
λij={0,1, if i=j otherwise
此时条件风险可写为:
R
(
c
∣
x
)
=
1
−
P
(
c
∣
x
)
R(c | \boldsymbol{x})=1-P(c | \boldsymbol{x})
R(c∣x)=1−P(c∣x),最优贝叶斯分类器为:
h
∗
(
x
)
=
arg
max
c
∈
Y
P
(
c
∣
x
)
h^{*}(\boldsymbol{x})=\underset{c \in \mathcal{Y}}{\arg \max } P(c | \boldsymbol{x})
h∗(x)=c∈YargmaxP(c∣x)
要得到最优分类器,首先要得到后验概率
P
(
c
∣
x
)
P(c | \boldsymbol{x})
P(c∣x):
P
(
c
∣
x
)
=
P
(
x
,
c
)
P
(
x
)
P(c | \boldsymbol{x})=\frac{P(\boldsymbol{x}, c)}{P(\boldsymbol{x})}
P(c∣x)=P(x)P(x,c)
根据贝叶斯定理,上式可写为:
P
(
c
∣
x
)
=
P
(
c
)
P
(
x
∣
c
)
P
(
x
)
P(c | \boldsymbol{x})=\frac{P(c) P(\boldsymbol{x} | c)}{P(\boldsymbol{x})}
P(c∣x)=P(x)P(c)P(x∣c)
P
(
c
)
P(c)
P(c)是先验概率,
P
(
x
∣
c
)
P(\boldsymbol{x}|c)
P(x∣c)是条件概率或似然,
P
(
x
)
P(\boldsymbol{x})
P(x)与标签无关,因此贝叶斯法是学习
P
(
c
)
P(c)
P(c)及
P
(
x
∣
c
)
P(\boldsymbol{x}|c)
P(x∣c)。
- 对于 P ( c ) P(c) P(c),根据大数定律,当训练集包含充足的独立同分布样本时, P ( c ) P(c) P(c)可以通过样本出现的频率来估计。
- 对于 P ( x ∣ c ) P(\boldsymbol{x}|c) P(x∣c),有指数级的参数,样本取值可能在训练集中未出现,直接使用频率估计不可行。
二、朴素贝叶斯分类器
朴素贝叶斯采用属性条件独立假设,对已知类别,假设所有属性相互独立,即:
P ( x ∣ c ) = P ( x 1 , x 2 , … , x d ∣ c ) = ∏ j = 1 d P ( x i ∣ c ) P(\boldsymbol{x}|c)=P(x_{1}, x_{2}, \dots, x_{d}|c)=\prod_{j=1}^dP(x_{i}|c) P(x∣c)=P(x1,x2,…,xd∣c)=j=1∏dP(xi∣c)
则
P
(
c
∣
x
)
P(c | \boldsymbol{x})
P(c∣x)可写为:
P
(
c
∣
x
)
=
P
(
c
)
P
(
x
∣
c
)
P
(
x
)
=
P
(
c
)
P
(
x
)
∏
i
=
1
d
P
(
x
i
∣
c
)
P(c | \boldsymbol{x})=\frac{P(c) P(\boldsymbol{x} | c)}{P(\boldsymbol{x})}=\frac{P(c)}{P(\boldsymbol{x})} \prod_{i=1}^{d} P\left(x_{i} | c\right)
P(c∣x)=P(x)P(c)P(x∣c)=P(x)P(c)i=1∏dP(xi∣c)
那么贝叶斯判定准则为:
h
n
b
(
x
)
=
arg
max
c
∈
Y
P
(
c
)
∏
i
=
1
d
P
(
x
i
∣
c
)
h_{n b}(\boldsymbol{x})=\underset{c \in \mathcal{Y}}{\arg \max } P(c) \prod_{i=1}^{d} P\left(x_{i} | c\right)
hnb(x)=c∈YargmaxP(c)i=1∏dP(xi∣c)
令
D
c
D_{c}
Dc表示训练集
D
D
D中第
c
c
c类样本的集合,那么容易得先验概率为:
P
(
c
)
=
∣
D
c
∣
∣
D
∣
P(c)=\frac{\left|D_{c}\right|}{|D|}
P(c)=∣D∣∣Dc∣
再令
D
c
,
x
i
D_{c,x_{i}}
Dc,xi表示
D
c
D_{c}
Dc中在第
i
i
i个属性上取值为
x
i
x_{i}
xi的样本集合,那么条件概率可估计为:
P
(
x
i
∣
c
)
=
∣
D
c
,
x
i
∣
∣
D
c
∣
P\left(x_{i} | c\right)=\frac{\left|D_{c, x_{i}}\right|}{\left|D_{c}\right|}
P(xi∣c)=∣Dc∣∣Dc,xi∣
当某个属性在训练集中没有与某个类别同时出现时,在连乘时会出现0,此时可以用拉普拉斯修正:
P
^
(
c
)
=
∣
D
c
∣
+
1
∣
D
∣
+
N
P
^
(
x
i
∣
c
)
=
∣
D
c
,
x
i
∣
+
1
∣
D
c
∣
+
N
i
\begin{aligned} \hat{P}(c) &=\frac{\left|D_{c}\right|+1}{|D|+N} \\ \hat{P}\left(x_{i} | c\right) &=\frac{\left|D_{c, x_{i}}\right|+1}{\left|D_{c}\right|+N_{i}} \end{aligned}
P^(c)P^(xi∣c)=∣D∣+N∣Dc∣+1=∣Dc∣+Ni∣Dc,xi∣+1
N
N
N为类别数,
N
i
N_{i}
Ni为第
i
i
i个属性可能的取值数目。