半朴素贝叶斯分类器
为了降低贝叶斯公式中估计后验概率P(c | x)的困难,使得人们对属性条件独立性假设进行一定程度的放松,称为“半朴素贝叶斯分类器”的学习方法。
基本想法是适当考虑一部分属性间的相互依赖信息,从而既不需进行完全联合概率计算,又不至于彻底忽略了比较强的属性依赖关系。“独依赖估计”是半朴素贝叶斯分类器最常用的一种策略。顾名思义,所谓“独依赖”就是假设每个属性在类别之外最多仅依赖于一个其他属性,即
其中,pai为属性xi所依赖的属性,称为xi的父属性。
TAN算法则是在最大带权生成树算法的基础上,通过以下步骤将属性间依赖关系约简为上图所示的树形结构。
容易看出,通过最大生成树算法,TAN实际上仅保留了强相关属性之间的依赖性。
AODE是一种基于集成学习机制、更为强大的独依赖分类器。与SPODE通过模型选择确定超父属性不同,AODE尝试将每个属性作为超父来构建SPODE,然后将那些具有足够训练数据支撑的SPODE集成起来作为最终结果,即
其中,Dxi是在第i个属性上取值为xi的样本的集合,m'为阈值常数。
不难得出,与朴素贝叶斯分类器相似,AODE的训练过程也是“计数”,即在训练数据集上对符合条件的样本进行计数的过程。
贝叶斯网
贝叶斯网亦称“信念网”,它借助有向无环图(DAG)来刻画属性间的依赖关系,并使用条件概率表来描述属性的联合概率分布。
具体来说,一个贝叶斯网B由结构G和参数θ两部分构成,即B=(G,θ)。网络结构G是一个有向无环图,其每个结点对应一个属性,若两个属性有依赖关系,则它们由一条边连接起来:参数θ定量描述这种依赖关系。
作为一个例子,下图给出了西瓜问题的贝叶斯网
贝叶斯网中存在着的典型依赖关系如下图
在“同父”结构中,给定父节点x1的取值,则x3与x4条件独立;在“顺序”结构中,给定x的值,则y与z条件独立;V型结构亦称“冲撞”结构,给定子结点x4的取值,x1与x2必不独立。同时,若x4的取值未知,则V型结构下x1与x2却是相互独立地,这样的独立性称为“边际独立性”,记为。
EM算法
EM算法是产够用的估计参数隐变量的利器,它是一种迭代式的方法,其基本思想是:若参数θ已知,则可根据训练数据推断出最优隐变量Z的值(E步);反之,若Z的值已知,则可方便地对参数θ做极大似然估计(M步)。