4.1 模型介绍
模型的输入空间为
χ∈Rn
的
n
维向量,输出空间为类标记集合
假设X各分量之间独立,根据贝叶斯公式则:
P(Y=ck│X=x)=P(X=x│Y=ck)P(Y=ck)∑kP(X=x|Y=ck)P(Y=ck)
我们的目标是:
y=argmaxckP(Y=ck│X=x)=argmaxckP(X=x│Y=ck)P(Y=ck)∑kP(X=x|Y=ck)P(Y=ck)
分子对于任意 ck 相同,故:
y=argmaxckP(X=x│Y=ck)P(Y=ck)
由此,我们的目标是根据数据估计 P(Y=ck) 以及 P(X=x│Y=ck) 。
4.2 后验概率最大化的意义
朴素贝叶斯的损失函数是期望风险最小化:
L(Y,f(X))={1,0,Y≠f(X)Y=f(X)
其期望风险为:
R(f)=E[L(Y,f(X))]
但以上期望风险是联合概率的期望,条件期望如下:
R(f)=E[L(Y,f(X))P(ck|X)]
为使期望风险最小化,只需对 X=x 逐个优化:
f(X)=argminy∑Kk=1L(ck,y)P(y=ck|X=x)
最后可得:
f(X)=argmaxyP(y=ck|X=x)
4.3 参数估计
用极大似然估计的话,先估计
P(Y=ck)
,其结果即数据中含
Y=ck
的数量占总数据的比重。然后估计
P(X=x│Y=ck)
,其结果即在
Y=ck
数据中
X=x
者占总数目的比重。
考虑到有的类别没有数据,可能出现概率为0(但实际概率不会为0,只不过很小罢了),则采用贝叶斯估计,其结果是分子加上常数
λ
,分子加上常数