贝叶斯分类器
贝叶斯决策
贝叶斯决策理论是在概率的框架下进行决策的基本方法。假设有
N
种可能的类内标记,即
如果定义损失函数为:
此处的损失函数和 λij 的一种具体形式。那么式(1)可以写成:
这就解释了最大化后验概率等价于最小化总体风险,也是朴素贝叶斯采用的基本原理!!!
这就是贝叶斯判定准则:为最小化总体风险,只需要在每个样本上选择那个能使条件风险最小的类别标记,即
那么根据公式(1)就不难知道,如果需要最小化风险,就必须知道后验概率
P(c∣x)
. 从这个角度来看,所有的机器学习算法就是基于训练样本来估计后验概率。主要的策略有:
1. 给定
x
,通过直接建模
2. 先对联合概率分布
对于生成模型来说,有:
<1> 类先验概率 P(c) 为样本空间中各类样本所占的比例,依据大数定理,可以使用各类样本出现的频率来估计。
<2>估计类条件概率 P(x∣c) 一种方法是假设其符合某种分布,然后再利用样本对该分布的参数 θc 进行估计,常用的估计方法就是 极大似然估计。
朴素贝叶斯分类器
由公式(4),(5)可知,贝叶斯决策的难点在于:类条件概率
P(x∣c)
是所有属性上的联合概率分布。朴素贝叶斯分类器假设所有的属性是条件独立的(注意不同于独立),那么公式(5)就可以转化为:
在公式(6)中可知 P(x) 与 x 所属的类别没有关系,也就是不论它属于哪个类别,在计算不同类别的后验概率的时候其值都是相等的。那么贝叶斯分类器的问题可以描述为:
这就是我们所需要求解的贝叶斯分类器,我们通过训练数据学习获得参数 P(cj) 和 P(xi∣cj) 。参数的估计方法可以使用极大似然估计。
参数的极大似然估计
假设
Dc
表示属于类别
c
的样本个数,
对于离散属性,假设属性 xi的取值可以为{xi1,xi2,⋯,xil} :
对于连续属性:
参数的贝叶斯估计
为了避免某些属性被未出现的属性值抹去,即可能出现某些属性取值的概率为0的情况。通常使用拉普拉斯修正来进行平滑计算,这样可以避免因训练样本的不充分而导致概率估值为零的情况发生。
半朴素贝叶斯分类器
半朴素贝叶斯分类器的基本想法是适当考虑一部分属性的依赖关系而不是认为其全部是独立的,这样虽然不需要计算所有属性的联合概率分布,但也一定程度上反映了部分属性的关联性。
贝叶斯网
贝叶斯网也称为信念网,借助有向无环图(DAG)来刻画属性之间的依赖关系,并使用条件概率表(CPT)来描述属性的联合概率分布。
EM算法
在样本中,往往会发生属性值缺失的事情,也就是并不是所有样本的属性值都是完整的。那么对于这样的情况如何去估模型的参数呢?
我们将这种缺失信息的变量成为”隐变量“,令
X
表示属性值完整的变量,
Z
表示隐变量,
Θ
表示模型参数,那么对
Θ
做参数估计,采用极大似然估计可得:
杰森不等式
假设
f
是一个凸函数,
References:
[1]周志华:机器学习
[2]EM算法原理详解
[3]李航:统计学习方法