周志华《机器学习》同步学习笔记 ——第七章 贝叶斯分类器
最近白天学车晚上看书 我瑞了 (概率论还没看啊啊啊啊)
7.1 贝叶斯决策论
对于分类任务,贝叶斯决策论考虑基于相关概率和误判损失来选择最优的类别标记。
期望损失(条件风险):
λ
i
j
\lambda _{ij}
λij是将cj的样本记为ci的损失。
目标是要最小化总体风险,那么只要对每个样本最小化条件风险
R
(
c
∣
x
)
R\left (c\mid \boldsymbol{x}\right )
R(c∣x)即可。
当目标为最小化分类错误率,
λ
i
j
\lambda _{ij}
λij可为 :当相同时为0,不同为1
此时条件风险变为
R
(
c
∣
x
)
=
1
−
P
(
c
∣
x
)
R\left (c\mid \boldsymbol{x}\right )=1-P\left (c\mid \boldsymbol{x}\right )
R(c∣x)=1−P(c∣x) 即目标为最大化后验概率P。
为估计后验概率:
- 建模 P ( c ∣ x ) P\left (c\mid \boldsymbol{x}\right ) P(c∣x) -------判别式模型:决策树、BP、支持向量机等
- 对联合概率
P
(
c
,
x
)
P\left (c,\boldsymbol{x}\right )
P(c,x) 建模-------生成式模型:考虑
P(x)可以省略,因为我们比较的时候 P ( x ) P(\boldsymbol x) P(x)一定是相同的,所以我们就是用历史数据计算出 P ( c ) P(c) P(c)——用各类样本出现频率来估计和 P ( x ∣ c ) P(\boldsymbol x|c) P(x∣c)——下文方法。
7.2 极大似然估计
可以使条件概率估计变得简单,但严重依赖假设的概率分布是否符合潜在真实数据分布。(玄学可能失败)
估计类条件概率的基本策略:先假定其有某种确定的概率分布再用样本估计其分布的参数。根据频率主义,参数虽未知,但客观存在。极大似然估计是根据数据采样来进行估计:去寻找能最大化似然的参数值
θ
^
c
\mathbf{\hat{\theta }_{c}}
θ^c ——找到一个使数据出现的可能性的最大的值
直接似然和对数似然:
例子 : 看不懂啊啊啊啊啊
7.3 朴素贝叶斯分类器
条件概率需要所有属性的联合概率,比较难获得,所以朴素贝叶斯分类器采用“属性条件独立性假设”——每个属性独立得对分类结果产生影响
基于此,d为属性数目,xi为属性取值
同样无需考虑
P
(
x
)
P(x)
P(x),将上式最大化 即为朴素贝叶斯分类器的表达式
需求
P
(
c
)
P(c)
P(c)和
P
(
x
i
∣
c
)
P\left ( x_{i}\mid c \right )
P(xi∣c)
拉普拉斯修正
7.4 半朴素贝叶斯分类器
对属性条件独立性假设进行一定程度的放松,适当考虑一部分属性间的相互依赖信息。
常用独依赖估计:每个属性在类别之外最多依赖一个其他属性
若对
x
i
x_{i}
xi,其父属性
p
x
i
px_{i}
pxi已知,则可估计
P
(
x
i
∣
c
,
p
a
i
)
P(x_{i}\mid c,pa_{i})
P(xi∣c,pai)
确定父属性的方法:
- 超父:所有的属性依赖于同一个属性
- 树形结构:
- AODE:将有足够训练数据支撑的SPODE集成起来
7.5 贝叶斯网
有向图来刻画属性依赖关系,用属性概率表来描述属性联合概率分布
结构
联合概率:
依赖关系:
可以进行有向分离:找出v型结构,在两个父节点之间加上无向边。把有向边改成无向边。以此形成的道德图可以看出变量间的独立性
学习
统计训练样本,估计每个结点的条件概率。
需要用到评分函数来搜索结构最恰当的贝叶斯网。
推断
贝叶斯网训练好后,可以通过一些属性变量来推测其他属性变量的取值。
由于直接精确推断是NP问题,所以要近视推断。常用吉布斯采样。
7.6 EM算法
在存在未观测变量的情形下,对模型参数进行估计。
循环E和M:利用估计的参数值计算对数似然的期望值,寻找似然期望最大化的参数值 直至收敛到局部最优解。
呜呜呜呜呜呜之后再重新仔细看看这一章⑧呜呜呜