1 描述
设输入空间 X ⊆ R n \mathcal{X} \subseteq R^n X⊆Rn为 n n n维向量的集合,输出空间为类标记集合 Y = { c 1 , c 2 , … , c K } \mathcal{Y}=\{c_1,c_2,\dots,c_K\} Y={
c1,c2,…,cK}。输入为特征向量 x ∈ X x \in \mathcal{X} x∈X,输出为类标记 y ∈ Y y \in Y y∈Y。 X X X是定义在输入空间 X \mathcal{X} X上的随机变量, Y Y Y是定义在输出空间 Y \mathcal{Y} Y上的随机变量。 P ( X , Y ) P(X,Y) P(X,Y)是 X X X和 Y Y Y的联合概率分布。训练数据集
T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x N , y N ) } T=\{(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)\} T={(x1,y1),(x2,y2),…,(xN,yN)}由 P ( X , Y ) P(X,Y) P(X,Y)独立同分布产生。
2 推导
P ( Y ∣ X ) = P ( X Y ) P ( X ) = P ( X ∣ Y ) P ( Y ) P ( X ) P(Y|X)=\frac{P(XY)}{P(X)}=\frac{P(X|Y)P(Y)}{P(X)} P(Y∣X)=P(X)P(XY)=P(X)P(X∣Y)P(Y)
y = f ( x ) = a r g max c k P ( X ∣ Y = c k ) P ( Y = c k ) P ( X ) = a r g max c k P ( X ∣ Y = c k ) P ( Y = c k ) = a r g max c k P ( Y = c k ) ∏ j P ( X ( j ) = x ( j ) ∣ Y = c k ) \begin{aligned} y=f(x)&=arg \max \limits_{c_k} \frac{P(X|Y=c_k)P(Y=c_k)}{P(X)} \\ &=arg \max \limits_{c_k} P(X|Y=c_k)P(Y=c_k) \\ &=arg \max \limits_{c_k} P(Y=c_k) \prod_jP(X^{(j)}=x^{(j)}|Y=c_k) \end{aligned} y=f(x)=argckmaxP(X)P(X∣Y=ck)P(Y=ck)=argckmaxP(X∣Y=ck)P(Y=ck)=argckmaxP(Y=ck)j∏P(X(j)=x(j)∣Y=ck)
朴素贝叶斯法是典型的生成学习方法。
3 含义
朴素贝叶斯分类用的是概率模型 y = P ( Y ∣ X ) y=P(Y|X) y=P(Y∣X)。为什么要这样呢?
损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。
假设选择 0 − 1 0-1 0−1损失函数:
L ( Y , f ( X ) ) = { 1 , Y ≠ f ( X ) 0 , Y = f ( X ) L(Y,f(X))=\begin{cases} 1, & Y \neq f(X) \\ 0,& Y = f(X) \end{cases} L(Y,f(X))={
1,0,Y=f(X)Y=f(X)
这时,期望风险函数为
R e x p ( f ) = E [ L ( Y , f ( X ) ) ] = E X ∑ k = 1 K L ( c k , f ( X ) ) P ( c k ∣ X ) \begin{aligned} R_{exp}(f)&=E[L(Y,f(X))] \\ &=E_X\sum_{k=1}^{K}L(c_k,f(X))P(c_k|X) \end{aligned} Rexp(f)=E[L(Y,f(X))]=EXk=1∑KL(ck,f(X))P(ck∣X)
为了使期望风险最小化,只需对 X = x X=x X=x逐个极小化,由此得到:
f ( x ) = a r g min y ∈ Y ∑ k = 1 K L ( c k , y ) P ( c k ∣ X = x ) = a r g min y ∈ Y P ( y ≠ c k ∣ X = x ) = a r g min y ∈ Y ( 1 − P ( y = c k ∣ X = x ) ) = a r g max y ∈ Y P ( y = c k ∣ X = x ) \begin{aligned} f(x)&=arg \min \limits_{y \in \mathcal{Y}} \sum_{k=1}^{K} L(c_k, y)P(c_k|X=x) \\ &=arg \min \limits_{y \in \mathcal{Y} }P(y \neq c_k | X=x) \\ &=arg \min \limits_{y \in \mathcal{Y}}(1-P(y=c_k|X=x)) \\ &=arg \max \limits_{y \in \mathcal{Y}}P(y=c_k|X=x) \end{aligned} f(x)=argy∈Y