假设有种可能的类别标记,即,是将真实标记为的样本误分类为的所产生的损失。
基于贝叶斯概率公式:
其中是类“先验”概率,是样本x相对于类标记的类条件概率。
朴素贝叶斯分类器
使用贝叶斯公式来估计后验概率的主要困难是类条件概率是所有属性上的联合概率,难以从有限的训练样本中直接估计得到。为避开这个障碍,朴素贝叶斯分类器采用了“属性条件独立性假设”:对已知类别,假设所有属性相互独立。贝叶斯公司改写成:
其中为属性数目,为在第个属性上的取值。因为对于所有类别来说,相同,因此贝叶斯判定准则:
,这就是朴素贝叶斯分类器的表达式
求解过程:
1、类先验概率
令表示训练集中第类样本组成的集合,若有充分的独立同分布样本,则可容易估计出类先验概率
2、条件概率
对离散属性来说,令表示中在第个属性上取值为的样本组成的集合,则条件概率可估计为
对连续属性可考虑概率密度函数,假定
半朴素贝叶斯分类器
属性独立条件常常不能成立。半朴素贝叶斯的基本想法是适当考虑一部分属性间的相互依赖关系信息,从而既不需要进行完全联合概率计算,又不至于彻底忽略了比较强的属性依赖关系。“独依赖估计”是半朴素贝叶斯分类器最常用的一种策略。即假设每个属性在类别之外最多仅依赖于一个其他属性。
其中为属性所依赖的属性,称为的父属性。于是问题的关键转化为如何求每个属性的父属性,不同的做法产生不同的独依赖分类器。下面介绍几种简单的方法:
(1)SPODE
假设所有的属性都依赖于同一个属性,称为“超父”。然后通过交叉验证等模型选择方法确定超父属性。
(2)TAN
把属性之间依赖关系转化为树形结构
(3)AODE
把每个属性作为超父,然后集合起来