贝叶斯决策论
设有 N 个类别,即
Y={c1,c2,...,cN}
,
λij
是将一个实际为
cj
的样本标记为
ci
的损失。那么,将样本
x
分类为
R(ci|x)=∑j=1NλijP(cj|x)
我们要求的就是找到一个判断准则 h 使其总风险最小:
显然,若要最小化 R(h) 只需在每个样本上选择能使 R(ci|x) 最小的标记:
h∗(x)=argminR(c|x)
当我们的目标是最小化分类错误率时,条件风险为:
R(c|x)=1−P(c|x)
于是:
h∗(x)=argmaxP(c|x)
贝叶斯公式:
P(c|x)=P(x,c)P(x)=P(c)P(x|c)P(x)
朴素贝叶斯分类
不难发现,基于贝叶斯公式来估计后颜概率
P(c|x)
的主要困难在于:类条件概率
P(x|c)
是所有属性上的联合概率,难以从有限的训练样本直接估计而得。
为了避开这个障碍,朴素贝叶斯分类器采用了 “属性条件独立假设”:对于已知类别,假设所有属性互相独立。那么:
P(c|x)=P(c)P(x|c)P(x)=P(c)P(x)∏i=1dP(xi|c)
其中,
d
为属性数目,
由于对于所有类别来说
P(x)
相同,因此贝叶斯判断准则有:
hnb(x)=argmaxc∈yP(c)∏i=1dP(xi|c)