1、基本概念
条件概率: A条件下B发生的概率为
并且
先验概率:如
P(x),P(ci)
P
(
x
)
,
P
(
c
i
)
,无约束的统计概率。
后验概率:如
P(ci|x)
P
(
c
i
|
x
)
,都是条件概率。
对于N中类别,设 λij λ i j 是将类 cj c j 误分为 ci c i 所产生的损失,基于后验概率 P(ci|x) P ( c i | x ) 得到将x样本误分类为 ci c i 的期望损失(excepted loss,或者称样本x上的条件风险 condition risk)为: R(ci|x)=∑j=iNλP(cj|x) R ( c i | x ) = ∑ j = i N λ P ( c j | x ) 。
显然对于独立分布的数据最小化每一个风险,那么总体风险也将最小化。贝叶斯判定准则(Bayes decision rule): 为最小化总体风险,只需在每个样本上选择能使条件风险 R(ci|x) R ( c i | x ) 最小的类别标记。
最小风险即是对于样本 x 选择类别标记 c 使后验概率 P(c|x) 最大: h∗(x)=argmaxj=iNP(c|x) h ∗ ( x ) = arg max j = i N P ( c | x )
然而对于 P(c|x) 我们一般是不可知的,也正是我们要训练出来的。训练的方法有一种,一种是判别式模型(discriminative models): 直接构建模型 P(c|x) 来预测c, 如决策树、SVM和神经网络;另一种是生成式模型(generative models): 先对联合概率P(x,c)建模,然后得到P(c|x)。
贝叶斯定理:
2、朴素贝叶斯
朴素贝叶斯分类器(naive bayes classifier): 属性条件独立性假设即所有属性相互独立时,
d为属性数目,x_i为x在第i个属性的取值。
小技巧: 取对数的方式将连乘(可能导致下溢)转化为相加。
如果测试中的x_i没有出现过那么连乘会导致结果为0。假设各属性值出现概率相同,引入拉普拉斯修正(Laplacian correction):
其中,N表示训练集中D可能的类别数,N_i表示第i个属性的取值数。即 分子+1而 分母加总数,这样全部子项概率相加仍然为1.
3、半朴素贝叶斯
在朴素贝叶斯的基本上添加对父属性(
pai
p
a
i
)的依赖(即联合父属性概率), 一般用独依赖:
SPODE: 所有属性依赖于用一个父属性,通过交叉验证找到一个属性对其他所有属性影响和最大的属性最为父属性。
TAN: 和SPODE类似,构建条件互信息(在某类同时发生的概率)的完全图,生成最大带权生成树,找到对该属性互信息最大的作为父属性。
AODE: 在SPODE的基础上进行统计,并且在大于阀值m’时采用下面的公式,否则采用拉普拉斯平滑避免0: