贝叶斯分类器的最优性
提出问题:
对于有监督学习是否存在最优的分类器?我们从二分类的简单情况出发,利用Neyman-Pearson引理对这个问题进行分析.
分析问题:
1、假设检验
( X 1 , Y 1 ) , ( X 2 , Y 2 ) , … … ( X n , Y n ) ∼ F ( X , Y ) (X_{1},Y_{1}),(X_{2},Y_{2}),\dots\dots(X_{n},Y_{n})\sim{}F(X,Y) (X1,Y1),(X2,Y2),……(Xn,Yn)∼F(X,Y),给定 X X X预测对应的 Y Y Y H 0 : Y = 0 v s H 1 : Y = 1 Y ∼ Π X ∣ Y = 0 ∼ f ( X ∣ Y = 0 ) X ∣ Y = 1 ∼ f ( X ∣ Y = 1 ) H_{0}:\,Y=0\ vs\ H_{1}:\,Y=1\\ Y\sim\Pi\quad X|Y=0\sim f(X|Y=0)\quad X|Y=1\sim f(X|Y=1) H0:Y=0 vs H1:Y=1Y∼ΠX∣Y=0∼f(X∣Y=0)X∣Y=1∼f(X∣Y=1)
2、分类器: δ ( x ) = { 0 x ∈ R 1 x ∈ R c \delta(x)=\begin{cases}0&x\in R\\1&x\in R^{c}\end{cases} δ(x)={
01x∈Rx∈Rc
3、对应错分率 L ( d , y ) = { 0 d = y 1 d ≠ y ⇒ L ( δ ( x ) , y ) = { 0 δ ( x ) = y 1 δ ( x ) ≠ y L(d,y)=\begin{cases}0&d=y\\1&d\neq y\end{cases}\ \Rightarrow\ L(\delta(x),y)=\begin{cases}0&\delta(x)=y\\1&\delta(x)\neq y\end{cases} L(d,y)={
01d=yd=y ⇒ L(δ(x),y)={
01δ(x)=yδ(x)=y
E [ L ( δ ( X ) , Y ) ] = p ( δ ( x ) ≠ y ) E[L(\delta(X),Y)]=p(\delta(x)\ne y) E[L(δ(X),Y)]=p(δ(x)=y)
问题准备:
1、Neyman-Pearson引理 H 0 : θ = θ 0 v s H 1 : θ = θ 1 X 1 , X 2 , … … X n ∼ i.i.d f ( X ∣ θ ) L ( θ ) = ∏ i = 1 n f ( X i ∣ θ ) H_{0}:\,\theta=\theta_{0}\ vs\ H_{1}:\,\theta=\theta_{1}\ X_{1},X_{2},\dots\dots X_{n}\stackrel{\text{i.i.d}}{\sim}f(X|\theta)\quad L(\theta)=\prod^{n}_{i=1}f(X_{i}|\theta) H0:θ=θ0 vs H1:θ=θ1 X1,X2,……Xn∼i.i.df(X∣θ)L(θ)=∏i=1nf(Xi∣θ) δ ( x ) = { θ 0 L ( θ 0 ) / L ( θ 1 ) ≥ C θ 1 L ( θ 0 ) / L ( θ 1 ) ≤ C α = P θ 0 ( δ C ( x ) = θ 1 ) \delta(x)=\begin{cases}\theta_{0}& L(\theta_{0})/L(\theta_{1})\ge C\\\theta_{1}& L(\theta_{0})/L(\theta_{1})\le C\end{cases}\\ \ \\ \ \\ \alpha=P_{\theta_{0}}(\delta_{C}(x)=\theta_{1}) δ(x)={
θ0θ1L(θ0)/L(θ1)≥CL(θ0)/L(θ1)≤C α=Pθ0(δC(x)=θ1)
(注意:此时 α \alpha α为检验的水平,N-P定理给定了最优分类器的形式)
那么此问题的目标就变成了寻找特定的C使得 P ( δ ( X ) ≠ Y ) P(\delta(X)\neq Y) P(δ(X)=Y)(错分率)最小.
此时,我们构造一个贝叶斯分类器 δ C B ( x ) = { 0 π 0 p ( x ∣ y = 0 ) / π 1 p ( x ∣ y = 1 ) ≥ 1 1 π 0 p ( x ∣ y = 0 ) / π 1 p ( x ∣ y = 1 ) < 1 \delta_{C_{B}}(x)=\begin{cases}0& \pi_{0}\,p(x|y=0)\,/\,\pi_{1}\,p(x|y=1)\ge 1\\1& \pi_{0}\,p(x|y=0)\,/\,\pi_{1}\,p(x|y=1)<1\end{cases} δCB(x)={
01π0p(x∣y=0)/π1p(x∣y=1)≥1π0p(x∣y=0)/π1p(x∣y=1)<1
(注意:此处的 π 0 , π 1 \pi_{0}\,,\,\pi_{1} π0,π1为先验概率,可理解为随机有一个样本产生了,在不知道任何 X X X的信息下,它属于第一类或者第二类的概率,即 p ( Y = 0 ) , p ( Y = 1 ) p(Y=0)\,,\,p(Y=1)