-
贝叶斯分类器
最小化错误率的贝叶斯最优分类器为:
其中,
基于贝叶斯公式,可改写为:
其中称P(c|x) 为后验概率,P(c) 为先验概率,P(x|c) 为条件概率.
-
朴素贝叶斯分类器
对于已知类别,假设所有属性相互独立,上式可重写为:
由于对所有类别来说相同,朴素贝叶斯分类器(naive Bayes classifier)表达式为:
于是朴素贝叶斯分类器的训练就是,对每一类估计的先验概率P(c) 和对每个属性估计条件概率P(xi|c)。
其中,对于连续属性的估计需要借助概率密度函数,假设,其中
、
代表c类样本在第i个属性上取值的均值和方差,则条件概率为:
-
拉普拉斯修正
由于在分类器的表达式中会出现连乘,为了避免出现概率为零带来的影响,需要进行拉普拉斯修正,修正公式如下:
-
半朴素贝叶斯分类器
半朴素贝叶斯分类器(semi-naive Bayes classifiers)的基本思想是:适当考虑一部分属性间的相互依赖信息,既不需要计算完全联合概率,又不彻底忽略比较强的属性依赖关系。常用的策略有“独立依赖估计”策略(ODE),TAN策略,AODE策略等等。
-
贝叶斯网络
当特征之间相关性比较强,而我们又要求比较精确的类概率的时候,就要借助贝叶斯网络进行训练,贝叶斯网是一种经典的概率图模型,借助有向无环图(Directed acyclic graph, DAG)来描述属性间的依赖关系,用条件概率表(Condition Probability Table, CPT)来描述属性的联合概率分布。
贝叶斯网结构有效地表达了属性间的条件独立性,贝叶斯网中三个变量之间的典型依赖关系是同父结构、V型结构、顺序结构。为了分析有向图中变量间的条件独立性,可使用有向分离先把有向图转变为道德图,令父结点相连的过程称为道德化。