习题提示
7.1:
设前三个属性(色泽,根蒂,敲声)分别为
x
1
,
x
2
,
x
3
x_1,x_2,x_3
x1,x2,x3,类别(好瓜,坏瓜)分别为
c
1
,
c
2
c_1,c_2
c1,c2,由【西瓜书(7.16)(7.17)】式求类条件概率的估值。
7.2:
最优贝叶斯分类器为:
h
∗
(
x
)
=
arg
max
c
∈
Y
P
(
c
∣
x
)
\begin{align} h^*(\boldsymbol{x})=\mathop{\arg\max}\limits_{c \in \mathcal{Y} }P(c|\boldsymbol{x}) \tag{1} \end{align}
h∗(x)=c∈YargmaxP(c∣x)(1)
朴素贝叶斯分类器是指式(1)中
P
(
c
∣
(
x
)
P(c|(\boldsymbol{x})
P(c∣(x)满足:
p
(
c
∣
x
)
=
P
(
c
)
P
(
x
)
∏
i
=
1
d
P
(
x
i
∣
c
)
\begin{align} p(c|\boldsymbol{x}) &=\frac{P(c)}{P(\boldsymbol{x})}\mathop{\prod }\limits_{i=1}^dP(x_i|c) \tag{2} \end{align}
p(c∣x)=P(x)P(c)i=1∏dP(xi∣c)(2)
式(2)是在属性条件独立假设下推导的。 当该假设不满足时,有:
p
(
c
∣
x
)
=
P
(
c
)
P
(
x
)
P
(
x
∣
c
)
=
P
(
c
)
P
(
x
)
∏
i
=
1
d
P
(
x
i
∣
c
,
x
1
:
(
i
−
1
)
)
,
x
1
:
(
i
−
1
)
=
(
x
1
,
x
2
,
⋯
,
x
i
−
1
)
\begin{align} p(c|\boldsymbol{x})&=\frac{P(c)}{P(\boldsymbol{x})}P(\boldsymbol{x}|c)\notag\\ &=\frac{P(c)}{P(\boldsymbol{x})}\mathop{\prod }\limits_{i=1}^dP(x_i|c,x_{1:\,(i-1)}),\quad x_{1:\,(i-1)}=(x_1,x_2,\cdots,x_{i-1}) \tag{3} \end{align}
p(c∣x)=P(x)P(c)P(x∣c)=P(x)P(c)i=1∏dP(xi∣c,x1:(i−1)),x1:(i−1)=(x1,x2,⋯,xi−1)(3)
现考虑二分类问题:
朴素贝叶斯分类器演变为:
h
∗
(
x
)
=
{
c
1
,
(
P
(
c
1
)
P
(
c
2
)
∏
i
=
1
d
P
(
x
i
∣
c
1
)
P
(
x
i
∣
c
2
)
⩾
1
)
c
2
,
(
P
(
c
1
)
P
(
c
2
)
∏
i
=
1
d
P
(
x
i
∣
c
1
)
P
(
x
i
∣
c
2
)
<
1
)
\begin{align} h^*(\boldsymbol{x})= \begin{cases} \, c_1 ,\qquad \left(\frac{P(c_1)}{P(c_2)}\mathop{\prod }\limits_{i=1}^d\frac{P(x_i|c_1)}{P(x_i|c_2)} \geqslant 1 \right)\\ \, c_2 ,\qquad \left(\frac{P(c_1)}{P(c_2)}\mathop{\prod }\limits_{i=1}^d\frac{P(x_i|c_1)}{P(x_i|c_2)} <1 \right) \end{cases} \tag{4} \end{align}
h∗(x)=⎩
⎨
⎧c1,(P(c2)P(c1)i=1∏dP(xi∣c2)P(xi∣c1)⩾1)c2,(P(c2)P(c1)i=1∏dP(xi∣c2)P(xi∣c1)<1)(4)
最优贝叶斯分类器(无属性条件独立的假设)演变为:
h
∗
(
x
)
=
{
c
1
,
(
P
(
c
1
)
P
(
c
2
)
∏
i
=
1
d
P
(
x
i
∣
c
1
,
x
1
:
(
i
−
1
)
)
P
(
x
i
∣
c
2
,
x
1
:
(
i
−
1
)
)
⩾
1
)
c
2
,
(
P
(
c
1
)
P
(
c
2
)
∏
i
=
1
d
P
(
x
i
∣
c
1
,
x
1
:
(
i
−
1
)
)
P
(
x
i
∣
c
2
)
,
x
1
:
(
i
−
1
)
<
1
)
\begin{align} h^*(\boldsymbol{x})= \begin{cases} \, c_1 ,\qquad \left(\frac{P(c_1)}{P(c_2)}\mathop{\prod }\limits_{i=1}^d\frac{P(x_i|c_1,x_{1:\,(i-1)})}{P(x_i|c_2,x_{1:\,(i-1)})} \geqslant 1 \right)\\ \, c_2 ,\qquad \left(\frac{P(c_1)}{P(c_2)}\mathop{\prod }\limits_{i=1}^d\frac{P(x_i|c_1,x_{1:\,(i-1)})}{P(x_i|c_2),x_{1:\,(i-1)}} <1 \right) \end{cases} \tag{5} \end{align}
h∗(x)=⎩
⎨
⎧c1,(P(c2)P(c1)i=1∏dP(xi∣c2,x1:(i−1))P(xi∣c1,x1:(i−1))⩾1)c2,(P(c2)P(c1)i=1∏dP(xi∣c2),x1:(i−1)P(xi∣c1,x1:(i−1))<1)(5)
显然,当下式(6)时,可由式(4)代替式(5)。
P
(
x
i
∣
c
1
,
x
1
:
(
i
−
1
)
)
P
(
x
i
∣
c
2
,
x
1
:
(
i
−
1
)
)
≈
P
(
x
i
∣
c
1
)
P
(
x
i
∣
c
2
)
\begin{align} \frac{P(x_i|c_1,x_{1:\,(i-1)})}{P(x_i|c_2,x_{1:\,(i-1)})}\approx \frac{P(x_i|c_1)}{P(x_i|c_2)} \tag{6} \end{align}
P(xi∣c2,x1:(i−1))P(xi∣c1,x1:(i−1))≈P(xi∣c2)P(xi∣c1)(6)
而式(6)(保持比例不变)在有些情况下是成立或近似成立的,故题述结论成立。
7.3:
修正的统计式为【西瓜书(7.19)(7.20)】。
7.4:
本题为开放式讨论,如:取对数,类似于对数似然;用主成分分析法,选取
d
d
d个属性;降维的方法;等等。
7.5:
参见7.2 再谈线性判别分析(高斯分布下的线性判别分析LDA实现了贝叶斯分类器)。
7.6:AODE:先用【西瓜书(7.24)(7.25)】对训练集中的数据进行“计数”,再用【西瓜书(7.23)】计算得到概率 P ( c i ∣ x ) P(c_i|\boldsymbol{x}) P(ci∣x),取使概率最大的类别 c i c_i ci。
7.7:
(
c
,
x
i
)
(c,x_i)
(c,xi)中,
x
i
x_i
xi为属性,有
d
d
d个属性,
c
c
c与
x
i
x_i
xi均为二值,因此事件
(
c
,
x
i
)
(c,x_i)
(c,xi)有4个基本事件,而每个需要30个样例来估计其概率,在最坏情况下,需要的总样例数至少为
d
×
4
×
30
d\times4\times 30
d×4×30个,最好情况下,
P
(
c
=
0
,
⋅
)
P(c=0,\cdot)
P(c=0,⋅)和
P
(
c
=
1
,
⋅
)
P(c=1,\cdot)
P(c=1,⋅)这就至少需要60个样本,假定这时取
m
′
=
30
m'=30
m′=30,且只有一个属性有一个取值的样本数大于30,即满足
∣
D
x
i
∣
⩾
m
′
|D_{x_i}|\geqslant m'
∣Dxi∣⩾m′的
i
i
i只有1个(不妨设为
x
1
x_1
x1),由【西瓜书(7.23)】知,只需要估计
P
(
c
=
0
,
x
1
)
P(c=0,x_1)
P(c=0,x1)和
P
(
c
=
1
,
x
1
)
P(c=1,x_1)
P(c=1,x1),即60个样本就够了。
7.8:
参见7.6 贝叶斯网(也称信念网)结构(网络结构也是“超参数”)、贝叶斯图络学习(两级搜索法)中的式 (7.42)。
同样思路可证顺序结构中的结论。
7.9:
在7.6 贝叶斯网(也称信念网)结构(网络结构也是“超参数”)、贝叶斯图络学习(两级搜索法)中最后一段的“两级搜索”法中,取
s
(
B
∣
D
)
s(B|D)
s(B∣D)为BIC准则【西瓜书(7.31)】即可。
7.10:
参见7.11 期望的计算、再谈贝叶斯图络学习最后部分的“再谈贝叶斯图络学习”。
本文为原创,您可以:
- 点赞(支持博主)
- 收藏(待以后看)
- 转发(他考研或学习,正需要)
- 评论(或讨论)
- 引用(支持原创)
- 不侵权