数据学习(8)·假设检验

作者课堂笔记 humminwang@163.com

假设检验(Hypothesis Testing)

Y = { 0 , 1 } Y=\{0,1\} Y={0,1},数据 X X X是独立同分布从 P ( X ∣ Y = 0 ) P(X|Y=0) P(XY=0) P ( X ∣ Y = 1 ) P(X|Y=1) P(XY=1)产生。
X = ( x 1 , x 2 , . . . . , x n ) ∈ X n X=(x_1,x_2,....,x_n)\in X^n X=(x1,x2,....,xn)Xn

问题: 给定观测数据 X = ( x 1 , . . . x n ) X=(x_1,...x_n) X=(x1,...xn),预测 Y Y Y,同时才能使。

H 0 : X ∼ i i d P X = P ( X ∣ Y = 0 ) → P 0 H_0:\quad X\sim iid\quad P_X=P(X|Y=0)\quad \rightarrow P_0 H0:XiidPX=P(XY=0)P0
H 1 : X ∼ i i d Q X = P ( X ∣ Y = 1 ) → P 1 H_1:\quad X\sim iid\quad Q_X=P(X|Y=1)\quad \rightarrow P_1 H1:XiidQX=P(XY=1)P1
P ( H 0 ∣ x 1 , . . . x n ) = P ( x 1 , . . . , x n ∣ H 0 ) P 0 P ( x 1 , . . . , x n ) = P X ( x 1 ) P X ( x 2 ) . . . P X ( x n ) P 0 P ( x 1 , . . . , x n ) P(H_0|x_1,...x_n)=\frac{P(x_1,...,x_n|H_0)P_0}{P(x_1,...,x_n)}=\frac{P_X(x_1)P_X(x_2)...P_X(x_n)P_0}{P(x_1,...,x_n)} P(H0x1,...xn)=P(x1,...,xn)P(x1,...,xnH0)P0=P(x1,...,xn)PX(x1)PX(x2)...PX(xn)P0
P ( H 1 ∣ x 1 , . . . x n ) = P ( x 1 , . . . , x n ∣ H 0 ) P 0 P ( x 1 , . . . , x n ) = Q X ( x 1 ) Q X ( x 2 ) . . . Q X ( x n ) P 1 P ( x 1 , . . . , x n ) P(H_1|x_1,...x_n)=\frac{P(x_1,...,x_n|H_0)P_0}{P(x_1,...,x_n)}=\frac{Q_X(x_1)Q_X(x_2)...Q_X(x_n)P_1}{P(x_1,...,x_n)} P(H1x1,...xn)=P(x1,...,xn)P(x1,...,xnH0)P0=P(x1,...,xn)QX(x1)QX(x2)...QX(xn)P1
化简后:
l o g P X ( x 1 ) Q X ( x 1 ) P X ( x 2 ) Q X ( x 2 ) . . . . P X ( x n ) Q X ( x n ) ( 1 ) log\frac{P_X(x_1)}{Q_X(x_1)}\frac{P_X(x_2)}{Q_X(x_2)}....\frac{P_X(x_n)}{Q_X(x_n)}\quad(1) logQX(x1)PX(x1)QX(x2)PX(x2)....QX(xn)PX(xn)(1)
l o g P 1 P 0 ( 2 ) log\frac{P_1}{P_0}\quad (2) logP0P1(2)
( 1 ) > ( 2 ) (1)>(2) (1)>(2), H 0 H_0 H0成立,反之 H 1 H_1 H1成立。


最优决策下的错误概率(Error Probability Of Optimal Decision)

  • 第一类错误 H 0 H_0 H0是对的,但是采用了 H 1 H_1 H1
  • 第二类错误 H 1 H_1 H1是对的,但是采取了 H 0 H_0 H0

P ( Q ( x ) ∣ ( x 1 , . . . x n ) ∼ P X ) = ∑ x ∼ Q ( x ) P X ( x 1 ) P X ( x 2 ) . . . P X ( x n ) P(Q(x)|(x_1,...x_n)\sim P_X)=\sum_{x\sim Q(x)}P_X(x_1)P_X(x_2)...P_X(x_n) P(Q(x)(x1,...xn)PX)=xQ(x)PX(x1)PX(x2)...PX(xn)
化简
x ∼ { 1 , . . . , k } , Q X ( i ) = q i x\sim \{1,...,k\},Q_X(i)=q_i x{1,...,k},QX(i)=qi
n q 1 nq_1 nq1意味着类别为1的数据个数。
上式则可以化简为:
= ∑ P X n q 1 ( 1 ) P X n q 2 ( 2 ) . . . . P X n q k ( k ) =\sum P_X^{nq_1}(1)P_X^{nq_2}(2)....P_X^{nq_k}(k) =PXnq1(1)PXnq2(2)....PXnqk(k)
= ∏ i = 1 k P X ( i ) = e ∑ i = 1 k n q i l o g P X ( i ) =\prod_{i=1}^kP_X(i)=e^{\sum_{i=1}^knq_ilogP_X(i)} =i=1kPX(i)=ei=1knqilogPX(i)
利用K-L散度来衡量Q和P分布之间的差异。

K-L散度又叫相对熵,K-L散度能帮助我们度量使用一个分布来近似另一个分布时所损失的信息。
更好理解参考博文https://www.jianshu.com/p/43318a3dc715?from=timeline&isappinstalled=0

有多少 X X X具有 Q X Q_X QX分布? X = ( x 1 , x 2 , . . . , x n ) X=(x_1,x_2,...,x_n) X=(x1,x2,...,xn)
C n n q 1 C n − n q 1 n q 2 . . . . C n − n q 1 − n q 2 . . . . n q k − 1 n q k C_n^{nq_1}C_{n-nq_1}^{nq_2}....C_{n-nq_1-nq_2....nq_{k-1}}^{nq_k} Cnnq1Cnnq1nq2....Cnnq1nq2....nqk1nqk
= n ! ( n q 1 ) ! . . . ( n q k ) ! =\frac{n!}{(nq_1)!...(nq_k)!} =(nq1)!...(nqk)!n!
n ! = 2 π n ( n e ) n n!=\sqrt{2\pi n}(\frac{n}{e})^n n!=2πn (en)n,化简:
= e − ∑ i = 1 k q i l o g q i = e n H ( Q X ) =e^{-\sum_{i=1}^kq_ilogq_i}=e^{nH(Q_X)} =ei=1kqilogqi=enH(QX)
所以:
P ( X ∼ Q X ∣ X i i d P X ) = e − ∑ i = 1 k q i l o g q i + ∑ i = 1 k q i l o g P X ( i ) P(X\sim Q_X|X \quad iid \quad P_X)=e^{-\sum_{i=1}^kq_ilogq_i+\sum_{i=1}^kq_ilogP_X(i)} P(XQXXiidPX)=ei=1kqilogqi+i=1kqilogPX(i)
= e ( − n D ( Q X ∣ ∣ P X ) ) =e^{(-nD(Q_X||P_X))} =e(nD(QXPX))

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值