周志华 机器学习 Day12

半朴素贝叶斯分类器

为了降低贝叶斯公式中估计后验概率P(c | x)的困难,使得人们对属性条件独立性假设进行一定程度的放松,称为“半朴素贝叶斯分类器”的学习方法。

基本想法是适当考虑一部分属性间的相互依赖信息,从而既不需进行完全联合概率计算,又不至于彻底忽略了比较强的属性依赖关系。“独依赖估计”是半朴素贝叶斯分类器最常用的一种策略。顾名思义,所谓“独依赖”就是假设每个属性在类别之外最多仅依赖于一个其他属性,即


其中,pai为属性xi所依赖的属性,称为xi的父属性。


TAN算法则是在最大带权生成树算法的基础上,通过以下步骤将属性间依赖关系约简为上图所示的树形结构。


容易看出,通过最大生成树算法,TAN实际上仅保留了强相关属性之间的依赖性。

AODE是一种基于集成学习机制、更为强大的独依赖分类器。与SPODE通过模型选择确定超父属性不同,AODE尝试将每个属性作为超父来构建SPODE,然后将那些具有足够训练数据支撑的SPODE集成起来作为最终结果,即


其中,Dxi是在第i个属性上取值为xi的样本的集合,m'为阈值常数。

不难得出,与朴素贝叶斯分类器相似,AODE的训练过程也是“计数”,即在训练数据集上对符合条件的样本进行计数的过程。

贝叶斯网

贝叶斯网亦称“信念网”,它借助有向无环图(DAG)来刻画属性间的依赖关系,并使用条件概率表来描述属性的联合概率分布。

具体来说,一个贝叶斯网B由结构G和参数θ两部分构成,即B=(G,θ)。网络结构G是一个有向无环图,其每个结点对应一个属性,若两个属性有依赖关系,则它们由一条边连接起来:参数θ定量描述这种依赖关系。

作为一个例子,下图给出了西瓜问题的贝叶斯网


贝叶斯网中存在着的典型依赖关系如下图


在“同父”结构中,给定父节点x1的取值,则x3与x4条件独立;在“顺序”结构中,给定x的值,则y与z条件独立;V型结构亦称“冲撞”结构,给定子结点x4的取值,x1与x2必不独立。同时,若x4的取值未知,则V型结构下x1与x2却是相互独立地,这样的独立性称为“边际独立性”,记为


EM算法

EM算法是产够用的估计参数隐变量的利器,它是一种迭代式的方法,其基本思想是:若参数θ已知,则可根据训练数据推断出最优隐变量Z的值(E步);反之,若Z的值已知,则可方便地对参数θ做极大似然估计(M步)。


  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值