贝叶斯分类器的最优性
提出问题:
对于有监督学习是否存在最优的分类器?我们从二分类的简单情况出发,利用Neyman-Pearson引理对这个问题进行分析.
分析问题:
1、假设检验
(X1,Y1),(X2,Y2),……(Xn,Yn)∼F(X,Y)(X_{1},Y_{1}),(X_{2},Y_{2}),\dots\dots(X_{n},Y_{n})\sim{}F(X,Y)(X1,Y1),(X2,Y2),……(Xn,Yn)∼F(X,Y),给定XXX预测对应的YYYH0: Y=0 vs H1: Y=1Y∼ΠX∣Y=0∼f(X∣Y=0)X∣Y=1∼f(X∣Y=1)H_{0}:\,Y=0\ vs\ H_{1}:\,Y=1\\ Y\sim\Pi\quad X|Y=0\sim f(X|Y=0)\quad X|Y=1\sim f(X|Y=1)H0:Y=0 vs H1:Y=1Y∼ΠX∣Y=0∼f(X∣Y=0)X∣Y=1∼f(X∣Y=1)
2、分类器:δ(x)={
0x∈R1x∈Rc\delta(x)=\begin{cases}0&x\in R\\1&x\in R^{c}\end{cases}δ(x)={
01x∈Rx∈Rc
3、对应错分率L(d,y)={
0d=y1d≠y ⇒ L(δ(x),y)={
0δ(x)=y1δ(x)≠yL(d,y)=\begin{cases}0&d=y\\1&d\neq y\end{cases}\ \Rightarrow\ L(\delta(x),y)=\begin{cases}0&\delta(x)=y\\1&\delta(x)\neq y\end{cases}L(d,y)={
01d=yd=y ⇒ L(δ(x),y)={
01δ(x)=yδ(x)=y
E[L(δ(X),Y)]=p(δ(x)≠y)E[L(\delta(X),Y)]=p(\delta(x)\ne y)E[L(δ(X),Y)]=p(δ(x)=y)
问题准备:
1、Neyman-Pearson引理H0: θ=θ0 vs H1: θ=θ1 X1,X2,……Xn∼i.i.df(X∣θ)L(θ)=∏i=1nf(Xi∣θ)H_{0}:\,\theta=\theta_{0}\ vs\ H_{1}:\,\theta=\theta_{1}\ X_{1},X_{2},\dots\dots X_{n}\stackrel{\text{i.i.d}}{\sim}f(X|\theta)\quad L(\theta)=\prod^{n}_{i=1}f(X_{i}|\theta)H0:θ=θ0 vs H1:θ=θ1 X1,X2,……Xn∼i.i.df(X∣θ)L(θ)=∏i=1nf(Xi∣θ)δ(x)={
θ0L(θ0)/L(θ1)≥Cθ1L(θ0)/L(θ1)≤C α=Pθ0(δC(x)=θ1)\delta(x)=\begin{cases}\theta_{0}& L(\theta_{0})/L(\theta_{1})\ge C\\\theta_{1}& L(\theta_{0})/L(\theta_{1})\le C\end{cases}\\ \ \\ \ \\ \alpha=P_{\theta_{0}}(\delta_{C}(x)=\theta_{1})δ(x)={
θ0θ1L(θ0)/L(θ1)≥CL(θ0)/L(θ1)≤C α=Pθ0(δC(x)=θ1)
(注意:此时α\alphaα为检验的水平,N-P定理给定了最优分类器的形式)
那么此问题的目标就变成了寻找特定的C使得P(δ(X)≠Y)P(\delta(X)\neq Y)P(δ(X)=Y)(错分率)最小.
此时,我们构造一个贝叶斯分类器δCB(x)={
0π0 p(x∣y=0) / π1 p(x∣y=1)≥11π0 p(x∣y=0) / π1 p(x∣y=1)<1\delta_{C_{B}}(x)=\begin{cases}0& \pi_{0}\,p(x|y=0)\,/\,\pi_{1}\,p(x|y=1)\ge 1\\1& \pi_{0}\,p(x|y=0)\,/\,\pi_{1}\,p(x|y=1)<1\end{cases}δCB(x)={
01π0p(x∣y=0)/π1p(x∣y=1)≥1π0p(x∣y=0)/π1p(x∣y=1)<1
(注意:此处的π0 , π1\pi_{0}\,,\,\pi_{1}π0,

本文探讨了在有监督学习中是否存在最优分类器的问题,特别关注于贝叶斯分类器。通过Neyman-Pearson引理,分析了贝叶斯分类器的最优性质,证明了在确保犯第一类错误概率不变的情况下,贝叶斯分类器的错分率最小,从而证实了其最优性。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



