贝叶斯分析-学习笔记(超干的干货)

文章目录

第一章.绪论

一、常见随机变量分布

1.二项分布:

如果随机变量的分布律为
p ( X = k ) = C n k p k ( 1 − p ) n − k , ( k = 0 , 1 , . . . , n ) p(X=k)=C^k_np^k(1-p)^{n-k},(k=0,1,...,n) p(X=k)=Cnkpk(1p)nk,(k=0,1,...,n)

则称随机变量X服从参数为 ( n , p ) (n,p) (n,p)的二项分布
记为X~B(n,p),(其中n为自然数,0<p<1为参数)

  • 1). n重伯努利实验,关心事件发生次数的分布律
  • 2) E X = n p , D X = n p ( 1 − p ) EX=np,DX = np(1-p) EX=np,DX=np(1p)
    当n=1时,为“0-1分布”,即 B ( 1 , p ) B(1,p) B(1,p)

2.Poisson分布

如果随机变量X的分布律为
P X = k = λ k k ! e − λ , ( k = 0 , 1 , … &ThinSpace; . w h e r e   c o n s t a n t   λ &gt; 0 ) P{X=k}=\frac{\lambda^k}{k!}e^{-\lambda},(k=0,1,\dots. where\ constant\ \lambda&gt;0) PX=k=k!λkeλ,(k=0,1,.where constant λ>0)

记为: X X X~ p ( λ ) p(\lambda) p(λ)

  • 1).稀有事件,事件发生次数的分布律
  • 2). E X = λ , D X = λ EX=\lambda,DX =\lambda EX=λ,DX=λ

3.几何分布

如果随机变量X的分布律为
P ( X = k ) = ( 1 − p ) k − 1 p , ( k = 1 , 2 , … &ThinSpace; .   w h e r e   c o n s t r a n t   p ∈ ( 0 , 1 ) ) P(X=k)=(1-p)^{k-1}p,(k=1,2,\dots.\ where\ constrant\ p\in (0,1)) P(X=k)=(1p)k1p,(k=1,2,. where constrant p(0,1))
则称随机变量X服从参数为p 的几何分布.
记为: X X X~ G ( p ) G(p) G(p)

  • 1).独立重复试验,首次成功次数的分布律。
  • 2). E X = 1 p , D X = 1 − p p 2 EX=\frac{1}{p},DX=\frac{1-p}{p^2} EX=p1,DX=p21p

4.帕斯卡分布(负二项分布)

如果随机变量X的分布律为
P ( X = k ) = C k − 1 r − 1 ( 1 − p ) k − r p r ) , ( k = r , r + 1 , r + 2 , … , w h e r e   c o n s t a n t   p ∈ ( 0 , 1 ) ) P(X=k)=C^{r-1}_{k-1}(1-p)^{k-r}p^r),(k=r,r+1,r+2,\dots,where\ constant\ p\in (0,1)) P(X=k)=Ck1r1(1p)krpr),(k=r,r+1,r+2,,where constant p(0,1))
记为: X X X~ N B ( r , p ) NB(r,p) NB(r,p)

  • 1).独立重复试验,第r此成功时实验次数的分布律
  • 2). E X = r p , D X = r ( 1 − p ) p 2 EX=\frac{r}{p},DX=\frac{r(1-p)}{p^2} EX=pr,DX=p2r(1p)
    *负二项分布可以看成是r个独立同分布的几何分布的 Y i Y_i Yi~ G ( p ) G(p) G(p)叠加,则有

E X = E ( Y 1 + Y 2 + ⋯ + Y r ) = r E ( Y i ) = r ⋅ 1 p EX = E(Y_1+Y_2+\cdots+Y_r)=rE(Y_i)=r\cdot \frac{1}{p} EX=E(Y1+Y2++Yr)=rE(Yi)=rp1

D X = D ( Y 1 + Y 2 + ⋯ + Y r ) = r D ( Y i ) = r ⋅ 1 − p p 2 DX = D(Y_1+Y_2+\cdots+Y_r)=rD(Y_i)=r\cdot \frac{1-p}{p^2} DX=D(Y1+Y2++Yr)=rD(Yi)=rp21p

5.多项分布(二项分布的推广)

如果随机向量 N = ( N 1 , N 2 , ⋯ &ThinSpace; , N m ) N=(N_1,N_2,\cdots,N_m) N=(N1,N2,,Nm)的分布律为
P ( N 1 = r 1 , N 2 = r 2 , ⋯ &ThinSpace; , N m = r m ) = n ! r 1 ! r 2 ! ⋯ r m ! p 1 r 1 p 2 r 2 ⋯ p m r m P(N_1=r_1,N_2=r_2,\cdots,N_m=r_m)=\frac{n!}{r_1!r_2!\cdots r_m!}p^{r_1}_1p^{r_2}_2\cdots p^{r_m}_m P(N1=r1,N2=r2,,Nm=rm)=r1!r2!rm!n!p1r1p2r2pmrm
则称随机变量N服从参数为 p = ( p 1 , ⋯ &ThinSpace; , p m ) 的 多 项 分 布 p=(p_1,\cdots,p_m)的多项分布 p=(p1,,pm).
Σ i = 1 m p i = 1 , Σ i = 1 m r i = n \Sigma^m_{i=1}p_i=1,\Sigma^m_{i=1}r_i=n Σi=1mpi=1,Σi=1mri=n(其中n为自然数,0< p i p_i pi<1为参数)
记作 N N N~ M ( n , p ) M(n,p) M(n,p)

-1).每次试验有m个可能结果: A 1 , A 2 , … , A m A_1,A_2,\dots,A_m A1,A2,,Am

-2). P ( A k ) = p k P(A_k)=p_k P(Ak)=pk,此实验独立重复进行n此,记 A k A_k Ak发生的次数为 N k N_k Nk.
N N N~ M ( n , p ) M(n,p) M(n,p)可以分解成n个独立的 M ( 1 , p ) M(1,p) M(1,p)之和。

6.均匀分布

若随机变量X 的密度函数为
f ( x ) = { 1 b − a , if  a ≤ x ≤ b 0 , o t h e r s f(x)=\begin{cases} \frac{1}{b-a}, &amp; \text{if $a\le x\le b$} \\ 0, &amp; others \end{cases} f(x)={ba1,0,if axbothers
则称随机变量 X X X服从区间 [ a , b ] [a,b] [a,b]上的均匀分布.
记作X~ U [ a , b ] U[a,b] U[a,b]
F ( x ) = { 0 , x &lt; a x − a b − a , a ≤ x ≤ b 1 , b &lt; x F(x)= \begin{cases} 0, &amp; x&lt;a \\ \frac{x-a}{b-a},&amp;a\le x\le b \\ 1, &amp; b&lt;x \end{cases} F(x)=0,baxa,1,x<aaxbb<x
几何概型

  • 1). P c &lt; X &lt; c + l = l b − a P{c&lt;X&lt;c+l}=\frac{l}{b-a} Pc<X<c+l=bal
  • 2)l. E X = 1 b − a , D X = ( b − a ) 2 12 EX=\frac{1}{b-a},DX=\frac{(b-a)^2}{12} EX=ba1,DX=12(ba)2

7.指数分布

X X X~ e ( λ ) e(\lambda) e(λ)
定义:如果随机变量X 的密度函数为
f ( x ) = λ e − λ x I { x &gt; 0 } f(x)=\lambda e^{-\lambda x}I\{x&gt;0\} f(x)=λeλxI{x>0}
其中 λ &gt; 0 \lambda&gt;0 λ>0为常数,则称随机变量X服从参数为 λ \lambda λ的指数分布.

  • 1). F ( x ) = 1 − e − λ x I { x &gt; 0 } F(x)=1-e^{-\lambda x}I\{x&gt;0\} F(x)=1eλxI{x>0}
  • 2). P ( X &gt; x ) = 1 − F ( x ) = e − λ x P(X&gt;x)=1-F(x)=e^{-\lambda x} P(X>x)=1F(x)=eλx
  • 3). E X = 1 λ , D X = 1 λ 2 EX=\frac{1}{\lambda},DX=\frac{1}{\lambda^2} EX=λ1,DX=λ21

8.正态分布

如果连续型随机变量的密度函数为
f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2 \sigma^2}} f(x)=2π σ1e2σ2(xμ)2
( w h e r e   − ∞ &lt; μ &lt; + ∞ , c o n s t a n t   σ &gt; 0 (where\ -\infty \lt \mu\lt +\infty,constant\ \sigma &gt;0 (where <μ<+,constant σ>0)

9.柯西分布

如果连续型随机变量的密度函数为
f ( x ) = 1 β π 1 1 + ( x − α β ) 2 , x ∈ R f(x)=\frac{1}{\beta \pi}\frac{1}{1+(\frac{x-\alpha}{\beta})^2},x\in \mathbb R f(x)=βπ11+(βxα)21,xR
则称随机变量X服从参数为 α , β \alpha,\beta α,β的柯西分布
记为:X~C ( α , β ) (\alpha,\beta) (α,β)

  • α = 0 , β = 1 , 我 们 称 C ( 0 , 1 ) 为 标 准 柯 西 分 布 \alpha=0,\beta=1,我们称C(0,1)为标准柯西分布 α=0,β=1,C(0,1)西.
  • f ( x ) = 1 π 1 1 + x 2 , x ∈ R f(x)=\frac{1}{\pi}\frac{1}{1+x^2},x\in \mathbb R f(x)=π11+x21,xR
  • EX不存在
    物理学中受迫共振的微分方程的解。

10.伽马分布

如果随机变量 X 的密度函数为
f ( x ) = ( β x ) α − 1 Γ ( α ) β e − β x I { x &gt; 0 } , w h e r e   α &gt; 0 , β &gt; 0 f(x)=\frac{(\beta x)^{\alpha-1}}{\Gamma(\alpha)}\beta e^{-\beta x}I\{ x&gt;0\},where\ \alpha &gt;0,\beta &gt;0 f(x)=Γ(α)(βx)α1βeβxI{x>0},where α>0,β>0
则称随机变量 X X X服从参数为 ( α , β ) (\alpha,\beta) (α,β) Γ \Gamma Γ分布.
记为: X X X~ Γ ( α , β ) \Gamma(\alpha,\beta) Γ(α,β)

  • α = 1 \alpha = 1 α=1时, X X X~ e ( β ) e(\beta) e(β)
  • Γ ( α ) = ∫ 0 ∞ x α − 1 e − x d x = ( α − 1 ) Γ ( α − 1 ) \Gamma(\alpha)=\int^{\infty}_0x^{\alpha-1}e^{-x}dx=(\alpha-1)\Gamma(\alpha-1) Γ(α)=0xα1exdx=(α1)Γ(α1)
  • E X = ∫ 0 ∞ ( β x ) α Γ ( α ) e − β x d x = Γ ( α + 1 ) β Γ ( α ) = α β EX=\int^{\infty}_0\frac{(\beta x)^{\alpha}}{\Gamma(\alpha)}e^{-\beta x}dx =\frac{\Gamma(\alpha+1)}{\beta\Gamma(\alpha)}=\frac{\alpha}{\beta} EX=0Γ(α)(βx)αeβxdx=βΓ(α)Γ(α+1)=βα
  • D X = E X 2 − ( E X ) 2 = α 2 + α β 2 − ( α β ) 2 = α β 2 DX=EX^2-(EX)^2=\frac{\alpha^2+\alpha}{\beta^2}-(\frac{\alpha}{\beta})^{2}=\frac{\alpha}{\beta^2} DX=EX2(EX)2=β2α2+α(βα)2=β2α
  • 独立的指数分部之和服从伽马分布。

11.逆伽马分布

如果随机变量 X 的密度函数为
f ( x ) = β α Γ ( α ) x − ( α + 1 ) e − β x I { x &gt; 0 } , w h e r e   α &gt; 0 , β &gt; 0 f(x)=\frac{\beta^\alpha}{\Gamma(\alpha)}x^{-(\alpha+1)}e^{-\frac{\beta}{x}}I\{x&gt;0\},where\ \alpha&gt;0,\beta&gt;0 f(x)=Γ(α)βαx(α+1)exβI{x>0},where α>0,β>0
则称随机变量 X X X服从参数为 ( α , β ) (\alpha,\beta) (α,β)的逆伽马分布.
记为: X X X~ Γ − 1 ( α , β ) \Gamma^{-1}(\alpha,\beta) Γ1(α,β)

  • X X X~ Γ ( α , β ) \Gamma(\alpha,\beta) Γ(α,β)时, Y = 1 X Y=\frac{1}{X} Y=X1~ Γ − 1 ( α , β ) \Gamma^{-1}(\alpha,\beta) Γ1(α,β)
  • E X = ∫ 0 ∞ x β α Γ ( α ) x − ( α + 1 ) e β α d x = β α − 1 EX=\int^\infty_0x \frac{\beta\alpha}{\Gamma(\alpha)}x^{-(\alpha+1)}e^{\frac{\beta}{\alpha}}dx=\frac{\beta}{\alpha-1} EX=0xΓ(α)βαx(α+1)eαβdx=α1β
  • D X = β 2 ( α − 1 ) 2 ( α − 2 ) DX=\frac{\beta^2}{(\alpha-1)^2(\alpha-2)} DX=(α1)2(α2)β2

通常用来描述误差分布。

12.贝塔分布

如果随机变量 X 的密度函数为
f ( x ) = Γ ( a + b ) Γ ( a ) Γ ( b ) x a − 1 ( 1 − x ) b − 1 I { 0 &lt; x &lt; 1 } , w h e r e   a &gt; 0 , b &gt; 0 f(x)=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}x^{a-1}(1-x)^{b-1}I\{0\lt x \lt1\},where\ a&gt;0,b&gt;0 f(x)=Γ(a)Γ(b)Γ(a+b)xa1(1x)b1I{0<x<1},where a>0,b>0

则称随机变量 X 服从参数为 ( a , b ) 的 β \beta β分布.
记为 X X X~ B e ( a , b ) Be(a,b) Be(a,b)

  • 当a=1,b=1时, X X X~ U ( 0 , 1 ) U(0,1) U(0,1)
    beta分布的密度函数
  • ∫ − ∞ ∞ f ( x ) d x = 1 \int^\infty_{-\infty}f(x)dx=1 f(x)dx=1, ∫ 0 1 x a − 1 ( 1 − x ) b − 1 d x = Γ ( a ) Γ ( b ) Γ ( a + b ) = β ( a , b ) \int^1_0x^{a-1}(1-x)^{b-1}dx=\frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)}=\beta(a,b) 01xa1(1x)b1dx=Γ(a+b)Γ(a)Γ(b)=β(a,b)
  • E X = ∫ 0 ∞ Γ ( a + b ) Γ ( a ) + Γ ( b ) x a ( 1 − x ) b − 1 d x = Γ ( a + b ) Γ ( a ) Γ ( b ) Γ ( a + 1 ) Γ ( b ) Γ ( a + b + 1 ) = a a + b EX=\int^\infty_0 \frac{\Gamma(a+b)}{\Gamma(a)+\Gamma(b)}x^a(1-x)^{b-1}dx=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\frac{\Gamma(a+1)\Gamma(b)}{\Gamma(a+b+1)}=\frac{a}{a+b} EX=0Γ(a)+Γ(b)Γ(a+b)xa(1x)b1dx=Γ(a)Γ(b)Γ(a+b)Γ(a+b+1)Γ(a+1)Γ(b)=a+ba
  • D X = a b ( a + b ) 2 ( a + b + 1 ) DX=\frac{ab}{(a+b)^2(a+b+1)} DX=(a+b)2(a+b+1)ab
  • beta分布可以看作一个概率的概率分布.
  • X X X ~ Γ ( α , θ ) \Gamma(\alpha,\theta) Γ(α,θ), Y Y Y ~ Γ ( β , θ ) \Gamma(\beta,\theta) Γ(β,θ)独立,则 X X + Y \frac{X}{X+Y} X+YX ~ B e ( α , β ) Be(\alpha,\beta) Be(α,β)

13.狄里克莱分布(贝塔分布的多维形式)

P ( x 1 , x 2 , … , x k ) = Γ ( α 1 + α 2 + ⋯ + α k ) Γ ( α 1 ) Γ ( α 2 ) … Γ ( α k ) x 1 α 1 − 1 x 2 α 2 − 1 ⋯ x k α k − 1 , ∑ i = 1 k x i = 1 P(x_1,x_2,\dots,x_k)=\frac{\Gamma(\alpha_1+\alpha_2+\dots+\alpha_k)}{\Gamma(\alpha_1)\Gamma(\alpha_2)\dots\Gamma(\alpha_k)}x^{\alpha_1-1}_1x^{\alpha_2-1}_2 \cdots x^{\alpha_k-1}_k,\sum^k_{i=1}x_i=1 P(x1,x2,,xk)=Γ(α1)Γ(α2)Γ(αk)Γ(α1+α2++αk)x1α11x2α21xkαk1,i=1kxi=1
则称随机变量 X X X 服从参数为 α = ( α 1 , ⋯ &ThinSpace; , α k ) ( α i &gt; 0 ) \alpha=(\alpha_1,\cdots,\alpha_k)(\alpha_i&gt;0) α=(α1,,αk)(αi>0) 的狄里克莱分布 .
记为 X X X ~ D ( k , α ) D(k,\alpha) D(k,α)

  • 当k=2时,狄里克莱分布为贝塔分布
  • 可以描述一个多维概率的概率分布.
  • ∫ ⋯ ∫ x 1 α 1 − 1 x 2 α 2 − 1 ⋯ x k α k − 1 d x 1 ⋯ d x k = Γ ( α 1 ) Γ ( α 2 ) … Γ ( α k ) Γ ( α 1 + α 2 + ⋯ + α k ) \int \cdots\int x_1^{\alpha_1-1}x_2^{\alpha_2-1}\cdots x_k^{\alpha_k-1}dx_1 \cdots dx_k=\frac{\Gamma(\alpha_1)\Gamma(\alpha_2)\dots\Gamma(\alpha_k)}{\Gamma(\alpha_1+\alpha_2+\dots+\alpha_k)} x1α11x2α21xkαk1dx1dxk=Γ(α1+α2++αk)Γ(α1)Γ(α2)Γ(αk)
  • E X i = Γ ( α 1 + α 2 + ⋯ + α k ) Γ ( α 1 ) Γ ( α 2 ) … Γ ( α k ) Γ ( α 1 ) Γ ( α 2 ) ⋯ Γ ( α i + 1 ) ⋯ Γ ( α k ) Γ ( α 1 + α 2 + ⋯ + α k + 1 ) = α i α 1 + α 2 + ⋯ + α k EX_i=\frac{\Gamma(\alpha_1+\alpha_2+\dots+\alpha_k)}{\Gamma(\alpha_1)\Gamma(\alpha_2)\dots\Gamma(\alpha_k)} \frac{\Gamma(\alpha_1)\Gamma(\alpha_2)\cdots \Gamma(\alpha_i +1) \cdots \Gamma(\alpha_k)}{\Gamma(\alpha_1+\alpha_2+\dots+\alpha_k+1)} =\frac{\alpha_i}{\alpha_1+\alpha_2+\dots+\alpha_k} EXi=Γ(α1)Γ(α2)Γ(αk)Γ(α1+α2++αk)Γ(α1+α2++αk+1)Γ(α1)Γ(α2)Γ(αi+1)Γ(αk)=α1+α2++αkαi
  • D X i = Γ ( α 1 ) Γ ( α 2 ) ⋯ Γ ( α i + 2 ) ⋯ Γ ( α k ) Γ ( α 1 + α 2 + ⋯ + α k + 2 ) − ( α i α 1 + α 2 + ⋯ + α k ) 2 = α i ( α i + 1 ) ( α 1 + α 2 + ⋯ + α k + 1 ) ( α 1 + α 2 + ⋯ + α k ) − ( α i α 1 + α 2 + ⋯ + α k ) 2 DX_i = \frac{\Gamma(\alpha_1)\Gamma(\alpha_2)\cdots \Gamma(\alpha_i +2) \cdots \Gamma(\alpha_k)}{\Gamma(\alpha_1+\alpha_2+\dots+\alpha_k+2)}-(\frac{\alpha_i}{\alpha_1+\alpha_2+\dots+\alpha_k})^2 =\frac{\alpha_i(\alpha_i+1)}{(\alpha_1+\alpha_2+\dots+\alpha_k+1) (\alpha_1+\alpha_2+\dots+\alpha_k)}-(\frac{\alpha_i}{ \alpha_1+\alpha_2+\dots+\alpha_k })^2 DXi=Γ(α1+α2++αk+2)Γ(α1)Γ(α2)Γ(αi+2)Γ(αk)(α1+α2++αkαi)2=(α1+α2++αk+1)(α1+α2++αk)αi(αi+1)(α1+α2++αkαi)2

14.帕累托分布

如果随机变量 X 的密度函数为
f ( x ) = α C α x α + 1 I { x &gt; C } , w h e r e   C &gt; 0 , α &gt; 0 f(x)=\frac{\alpha C^\alpha}{x^{\alpha+1}}I\{x&gt;C\},where\ C&gt;0,\alpha&gt;0 f(x)=xα+1αCαI{x>C},where C>0,α>0

则称随机变量 X 服从参数为 ( C , α ) ( C , \alpha ) (C,α) 的 帕雷托 分布.
记为 X X X ~ P a ( C , α ) Pa(C,\alpha) Pa(C,α)

  • 经济问题 :贫与富的存在
  • 通过市场交易,20%的人将占有80%的社会财富,如果交易可以不断进行下去,那么,在因和果、努力和收获之间,普遍存在着不平衡关系.
    在这里插入图片描述

二. 联合分布,边缘分布,条件分布

1.已知边缘分布和条件分布

设随机向量 X 的概率分布为 P X ( x ) P_X(x) PX(x),Y 在 X 下的条件分布
P Y ∣ X ( y ∣ x ) P_{Y|X}(y|x) PYX(yx),则
联合分布:
f ( x , y ) = f x ( x ) f Y ∣ X ( y ∣ X ) , ( X 连 续 型 , Y 连 续 型 ) f(x,y) = f_x(x)f_{Y|X}(y|X),( X 连续型 , Y 连续型 ) f(x,y)=fx(x)fYX(yX),(X,Y)

P ( x i , y i ) = P X ( x i ) P Y ∣ X ( y i ∣ x i ) , ( X 离 散 型 , Y 离 散 型 ) P(x_i,y_i)=P_X(x_i)P_{Y|X}(y_i|x_i),( X 离散型 , Y 离散型 ) P(xi,yi)=PX(xi)PYX(yixi),(X,Y)

P ( x i , y i ) = P X ( x i ) f Y ∣ X ( y ∣ x i ) , ( Y 连 续 型 , X 离 散 型 ) P(x_i,y_i)=P_X(x_i)f_{Y|X}(y|x_i),(Y连续型,X离散型) P(xi,yi)=PX(xi)fYX(yxi),(Y,X)

P ( x i , y i ) = f X ( x ) P Y ∣ X ( y i ∣ x ) , ( X 连 续 型 , Y 离 散 型 ) P(x_i,y_i)=f_X(x)P_{Y|X}(y_i|x),(X连续型,Y离散型) P(xi,yi)=fX(x)PYX(yix),(X,Y)

2.已知联合分布

设随机向量 ( X , Y ) 的联合分布为 P ( x , y ), 则

  • 边缘分布:
    P X ( x ) = ∫ − ∞ ∞ p ( x , y ) d y , ( Y 连 续 型 ) P_X(x)=\int^\infty_{-\infty}p(x,y)dy,(Y连续型) PX(x)=p(x,y)dy,(Y)

P X ( x ) = ∑ i p ( x , y i ) , ( Y 离 散 型 ) P_X(x)=\sum_ip(x,y_i),(Y离散型) PX(x)=ip(x,yi),(Y)

  • 条件分布:
    P Y ∣ X ( y ∣ x ) = p ( x , y ) p X ( x ) , ( Y 连 续 型 ) P_{Y|X}(y|x)=\frac{p(x,y)}{p_X(x)},(Y连续型) PYX(yx)=pX(x)p(x,y),(Y)

P Y ∣ X ( y i ∣ x ) = p ( x , y i ) p X ( x ) , ( Y 离 散 型 ) P_{Y|X}(y_i|x) =\frac{p(x,y_i)}{p_X(x)},(Y离散型) PYX(yix)=pX(x)p(x,yi),(Y)

三.基本概念

1.指数族:

p ( x , θ ) = C ( θ ) e x p { ∑ i = 1 k θ i T i ( x ) } h ( x ) p(x,\theta)=C(\theta)exp\{\sum^k_{i=1}\theta_iT_i(x)\}h(x) p(x,θ)=C(θ)exp{i=1kθiTi(x)}h(x)
标准形式:
见<<高等数理统计shaojun>>

2.充分统计量:

有分布族 { p ( x , θ ) , θ ∈ Θ } \{p(x,\theta),\theta\in \Theta \} {p(x,θ),θΘ},
若在已知统计量 T 的条件下 , 样本 X 的条件分布与 θ \theta θ 无关,则称 T 为参数 θ \theta θ 的充分统计量.

3.因子分解定理:

有分布族 { p ( x , θ ) , θ ∈ Θ } \{p(x,\theta),\theta\in \Theta \} {p(x,θ),θΘ}, 以及统计量:T=T(x)
p ( x , θ ) p ( x , \theta ) p(x,θ) 能够分解成
p ( x , θ ) = g ( T ( x ) , θ ) h ( x ) p ( x , \theta ) = g ( T ( x ), \theta ) h ( x ) p(x,θ)=g(T(x),θ)h(x)
则 T 为参数 θ \theta θ 的充分统计量。

4.完备统计量:

有分布族 { p ( x , θ ) , θ ∈ Θ } \{p(x,\theta),\theta\in \Theta \} {p(x,θ),θΘ}, 以及统计量:T=T(x),
若对 ∀ φ (   T ( x )   ) \forall \varphi(\ T(x)\ ) φ( T(x) )满足, E θ ( φ (   ( T ( x )   ) = 0 E_\theta (\varphi(\ (T(x)\ )=0 Eθ(φ( (T(x) )=0,都有
P θ ( φ ( T ( X ) ) = 0 ) = 1 P_\theta (\varphi (T(X))=0)=1 Pθ(φ(T(X))=0)=1

5.完全统计量判定:

若样本 X = ( X 1 , X 2 , ⋯ &ThinSpace; , X n ) X = ( X_1 , X_2 ,\cdots , X_n ) X=(X1,X2,,Xn) 的分布族: { p ( x , θ ) , θ ∈ Θ } \{p(x,\theta),\theta\in \Theta \} {p(x,θ),θΘ},
P ( x , θ ) = C ( θ ) e x p { ∑ i = 1 k θ i T i ( x ) } h ( x ) P(x,\theta)=C(\theta)exp\{ \sum^k_{i=1}\theta_iT_i(x) \}h(x) P(x,θ)=C(θ)exp{i=1kθiTi(x)}h(x)
统计量: T = (   T 1 ( x ) , T 2 ( x ) , ⋯ &ThinSpace; , T k ( x )   ) T=(\ T_1(x),T_2(x),\cdots,T_k(x) \ ) T=( T1(x),T2(x),,Tk(x) ), 且参数空间 Θ \Theta Θ有内点,则T为参数 θ \theta θ的完全统计量
看<<高等数理统计 shaojun>><<参数统计教程韦博成>>

6.UMVUE:

样本 X = ( X 1 , X 2 , ⋯ &ThinSpace; , X n ) X=(X_1,X_2,\cdots,X_n) X=(X1,X2,,Xn),
分布族: { p ( x , θ ) , θ ∈ Θ } \{p(x,\theta),\theta\in \Theta \} {p(x,θ),θΘ},
可估函数: g ( θ ) g(\theta) g(θ),
g ^ ∗ ( X ) \hat g^*(X) g^(X) g ( θ ) g(\theta) g(θ)的一个无偏估计量,若对 g ( θ ) g(\theta) g(θ)的任意无偏估计 g ^ ( X ) \hat g(X) g^(X)都有:
D g ^ ∗ ( X ) ≤ D g ^ ( X ) D \hat g^*(X) \le D \hat g(X) Dg^(X)Dg^(X)
则称 g ^ ∗ ( X ) 是 g ( θ ) 的 U M V U E \hat g^*(X)是g(\theta)的UMVUE g^(X)g(θ)UMVUE

7.L-S定理:

样本 X = ( X 1 , X 2 , ⋯ &ThinSpace; , X n ) X=(X_1,X_2,\cdots,X_n) X=(X1,X2,,Xn),
分布族: { p ( x , θ ) , θ ∈ Θ } \{p(x,\theta),\theta\in \Theta \} {p(x,θ),θΘ},
可估函数: g ( θ ) g(\theta) g(θ),
统计量 T (X ) 是一个充分完备统计量.
g ^ ( T ( X ) ) \hat g( T ( X )) g^(T(X))是 g ( \theta ) 的 一个无偏估计量,
g ^ ( T ( X ) ) \hat g(T(X)) g^(T(X)) g ( θ ) g(\theta) g(θ)唯一的UMVUE

8.C-R不等式:

样本 X = ( X 1 , X 2 , ⋯ &ThinSpace; , X n ) X=(X_1,X_2,\cdots,X_n) X=(X1,X2,,Xn),
分布族: { p ( x , θ ) , θ ∈ Θ } \{p(x,\theta),\theta\in \Theta \} {p(x,θ),θΘ},
可估函数: g ( θ ) g(\theta) g(θ),
g ^ ( T ( X ) ) \hat g( T ( X )) g^(T(X)) g ( θ ) g ( \theta ) g(θ) 的 一个无偏估计量,
假设 p(x, θ \theta θ)满足正则性条件:

  • 1). { x ∣ p ( x , θ ) &gt; 0 } 与 θ 无 关 \{ x|p(x,\theta)&gt;0 \}与\theta无关 {xp(x,θ)>0}θ
  • 2). p ( x , θ ) 关 于 θ 可 导 p(x,\theta)关于\theta可导 p(x,θ)θ
  • 3). 有 关 p ( x , θ ) 关 于 θ 求 导 和 积 分 可 换 序 有关p(x,\theta)关于\theta求导和积分可换序 p(x,θ)θ
    则有 V a r θ ( g ^ ( X ) ) ≥ ( g ‘ ( θ ) ) 2 n I ( θ ) ( = ( g ‘ ( θ ) I − 1 ( θ ) ( g ‘ ( θ ) T n ) Var_\theta (\hat g(X)) \ge \frac{(g`(\theta))^2}{nI(\theta)}\left( =\frac{(g`(\theta)I^{-1}(\theta)(g`(\theta)^T}{n} \right) Varθ(g^(X))nI(θ)(g(θ))2(=n(g(θ)I1(θ)(g(θ)T)
    I ( θ ) = E ( ∂ l n p ( x , θ ) ∂ θ ) 2 I(\theta)=E(\frac{\partial lnp(x,\theta)}{\partial \theta})^2 I(θ)=E(θlnp(x,θ))2为参数 θ \theta θ的信息量
    如果 D T = ( g ‘ ( θ ) ) 2 n I ( θ ) , ( 当 q ( θ ) = θ 时 , D T = 1 n I ( θ ) ) 则 称 T ( X 1 , X 2 , ⋯ &ThinSpace; , X n ) 为 g ( θ ) 的 有 效 估 计 量 DT=\frac{(g`(\theta))^2}{nI(\theta)},(当q(\theta)=\theta时,DT=\frac{1}{nI(\theta)})则称T(X_1,X_2,\cdots,X_n)为g(\theta)的有效估计量 DT=nI(θ)(g(θ))2,(q(θ)=θ,DT=nI(θ)1)T(X1,X2,,Xn)g(θ)]

9.N-P引理

10.N-P引理推广

第二章.先验分布的选取

一.古典学派和贝叶斯学派

  • 古典统计学派: 坚持概率的频率解释, 把未知参数看成一个固定的未知量!
    统计推断的信息量: 总体信息和样本信息
    缺点: 需要大量重复试验

  • 贝叶斯学派: 坚持先给定先验概率, 把未知参数用一个概率分布描述!
    统计推断的信息量: 总体信息,样本信息及先验信息
    缺点: 先验信息主观性比较强

二.贝叶斯统计的基本概念

设总体 X 的概率函数为 p ( x ∣ θ ) p ( x | \theta ) p(xθ)( 分布律或密度函数 ) ,
样本: X 1 , X 2 , . . . , X n ,   θ X_1 , X_2 ,..., X_n ,\ \theta X1,X2,...,Xn, θ 是未知参数。

1).参数的先验分布: π ( θ ) \pi (\theta) π(θ)

  • θ \theta θ 是离散型随机变量时:
    π ( θ i ) = P ( θ = θ i ) \pi(\theta_i)=P(\theta=\theta_i) π(θi)=P(θ=θi)
  • θ \theta θ 是连续型随机变量时:
    π ( θ ) 表 示 参 数 θ 概 率 密 度 函 数 \pi(\theta)表示参数\theta 概率密度函数 π(θ)θ

2).参数的后验分布: π ( θ ∣ x 1 , x 2 , ⋯ &ThinSpace; , x n ) \pi(\theta|x_1,x_2,\cdots, x_n) π(θx1,x2,,xn)

在给定 X 1 = x 1 , ⋯ &ThinSpace; , X n = x n X_1=x_1,\cdots,X_n=x_n X1=x1,,Xn=xn条件下,
θ 的 条 件 分 布 π ( θ ∣ x 1 , x 2 , ⋯ &ThinSpace; , x n ) \theta的条件分布\pi(\theta|x_1,x_2,\cdots, x_n) θπ(θx1,x2,,xn)

三.后验分布的计算

  • 样本的条件分布为:

p ( x 1 , x 2 , ⋯ &ThinSpace; , x n ∣ θ ) = ∏ i = 1 n p ( x i ∣ θ ) p(x_1,x_2,\cdots,x_n|\theta)=\prod^n_{i=1}p(x_i|\theta) p(x1,x2,,xnθ)=i=1np(xiθ)

  • 样本与参数的联合分布为:

h ( x 1 , x 2 , ⋯ &ThinSpace; , x n , θ ) = π ( θ ) p ( x 1 , x 2 , ⋯ &ThinSpace; , x n ∣ θ ) h( x_1 , x_2 , \cdots, x_n , \theta ) =\pi ( \theta ) p ( x_1 , x_2 , \cdots, x_n | \theta ) h(x1,x2,,xn,θ)=π(θ)p(x1,x2,,xnθ)

  • 样本边缘分布为:

m ( x 1 , x 2 , ⋯ &ThinSpace; , x n ) = ∫ Θ h ( x 1 , x 2 , ⋯ &ThinSpace; , x n , θ ) d θ m(x_1,x_2,\cdots,x_n)=\int_\Theta h(x_1,x_2,\cdots,x_n,\theta)d\theta m(x1,x2,,xn)=Θh(x1,x2,,xn,θ)dθ
则有后验分布:
1).连续型
π ( θ ∣ x 1 , x 2 , ⋯ &ThinSpace; , x n ) = h ( x 1 , x 2 , ⋯ &ThinSpace; , x n ∣ θ ) m ( x 1 , x 2 , ⋯ &ThinSpace; , x n ) = π ( θ ) p ( x 1 , x 2 , ⋯ &ThinSpace; , x n ∣ θ ) ∫ Θ π ( θ ) p ( x 1 , x 2 , ⋯ &ThinSpace; , x n ∣ θ ) d θ \pi(\theta|x_1,x_2,\cdots,x_n)=\frac{h(x_1,x_2,\cdots,x_n|\theta)}{m(x_1,x_2,\cdots,x_n)} \\ =\frac{\pi(\theta)p(x_1,x_2,\cdots,x_n|\theta)}{\int_\Theta \pi(\theta)p(x_1,x_2,\cdots,x_n|\theta)d\theta} π(θx1,x2,,xn)=m(x1,x2,,xn)h(x1,x2,,xnθ)=Θπ(θ)p(x1,x2,,xnθ)dθπ(θ)p(x1,x2,,xnθ)

2).离散型
π ( θ ∣ x 1 , x 2 , ⋯ &ThinSpace; , x n ) = π ( θ k ) p ( x 1 , x 2 , ⋯ &ThinSpace; , x n ∣ θ k ) ∑ i π ( θ i ) p ( x 1 , x 2 , ⋯ &ThinSpace; , x n ∣ θ i ) \pi(\theta|x_1,x_2,\cdots,x_n)=\frac{\pi(\theta_k)p(x_1,x_2,\cdots,x_n|\theta_k)}{\sum_i\pi(\theta_i)p(x_1,x_2,\cdots,x_n|\theta_i)} π(θx1,x2,,xn)=iπ(θi)p(x1,x2,,xnθi)π(θk)p(x1,x2,,xnθk)

在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述

四.先验分布函数形式的确定

1.专家意见
2.历史资料
3.相对似然法
4.直方图法
5.定分度法和变分度法
6.样本边缘分布最大似然先验

  • 例题1
    X X X~ e ( θ ) e(\theta) e(θ) 样本 X 1 , X 2 , ⋯ &ThinSpace; , X n , θ X_1,X_2,\cdots,X_n, \theta X1,X2,,Xn,θ~ e ( λ ) e(\lambda) e(λ)
    解:
    π ( θ ) = λ e − λ θ \pi (\theta)=\lambda e^{-\lambda \theta} π(θ)=λeλθ

p ( x 1 , ⋯ &ThinSpace; , x n ∣ θ ) = θ − n e − θ ∑ i = 1 n x i p(x_1,\cdots,x_n|\theta)=\theta^{-n}e^{-\theta \sum^n_{i=1}x_i} p(x1,,xnθ)=θneθi=1nxi

p ( x 1 , ⋯ &ThinSpace; , x n , θ ∣ λ ) = λ θ n e − θ ( λ + ∑ i = 1 n x i ) p(x_1,\cdots,x_n,\theta|\lambda)=\lambda \theta^n e^{-\theta (\lambda+\sum^n_{i=1}x_i)} p(x1,,xn,θλ)=λθneθ(λ+i=1nxi)

p ( x 1 , ⋯ &ThinSpace; , x n ∣ λ ) = ∫ p ( x 1 , ⋯ &ThinSpace; , x n ) p ( θ ) d θ = ∫ λ θ n e x p ( − θ ( λ + ∑ i = 1 n x i ) ) d θ = λ n ! ( λ + ∑ i = 1 n x i ) n + 1 p(x_1,\cdots,x_n|\lambda)=\int p(x_1,\cdots,x_n)p(\theta)d\theta=\int \lambda\theta^n exp(-\theta (\lambda + \sum^n_{i=1}x_i))d\theta \\ =\lambda \frac{n!}{(\lambda+\sum^n_{i=1}x_i)^{n+1}} p(x1,,xnλ)=p(x1,,xn)p(θ)dθ=λθnexp(θ(λ+i=1nxi))dθ=λ(λ+i=1nxi)n+1n!

l n p ( x 1 , ⋯ &ThinSpace; , x n ∣ λ ) = l n λ + l n n ! − ( n + 1 ) l n ( λ + ∑ i = 1 n x i ) lnp(x_1,\cdots,x_n|\lambda) = ln\lambda+lnn!-(n+1)ln(\lambda+\sum^n_{i=1}x_i) lnp(x1,,xnλ)=lnλ+lnn!(n+1)ln(λ+i=1nxi)

令 d l n p ( x 1 , ⋯ &ThinSpace; , x n ∣ λ ) d λ = 1 λ − ( n + 1 1 λ + ∑ i = 1 n x i ) = 0 令\frac{dlnp(x_1,\cdots,x_n|\lambda)}{d\lambda}=\frac{1}{\lambda}-(n+1\frac{1}{\lambda+\sum^n_{i=1}x_i})=0 dλdlnp(x1,,xnλ)=λ1(n+1λ+i=1nxi1)=0
求出极大似然估计 λ ^ = X ˉ \hat \lambda=\bar X λ^=Xˉ

五.超参数的确定

若先验分布的形式确定,但分布中含有未知参数(超参数)

1.先验分布具有明确的意义或信息

例子1 θ \theta θ~ N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2)
在这里插入图片描述

2.利用边缘分布确定超参数(矩估计和MLE)

已知总体X~P(x| θ \theta θ) , θ \theta θ ~ π ( θ ∣ λ ) \pi(\theta|\lambda) π(θλ) λ \lambda λ是超参数
在这里插入图片描述

六.无信息先验分布

1.贝叶斯假设

  • 离散均匀分布: θ 可 能 取 值 有 限 , θ 1 , ⋯ &ThinSpace; , θ n , P ( θ = θ i ) = 1 n \theta可能取值有限, \theta_1,\cdots,\theta_n,P(\theta=\theta_i)=\frac{1}{n} θ,θ1,,θn,P(θ=θi)=n1
  • 有限区间上的均匀分布: θ \theta θ~ U [ a , b ] U[a,b] U[a,b]
  • 广义先验分布: θ ∈ ( − ∞ , ∞ ) , θ 的 先 验 分 布 满 足 : \theta \in (-\infty,\infty),\theta的先验分布满足: θ(,),θ:
  • 1. π ( θ ) ≥ 0 , ∫ − ∞ ∞ π ( θ ) d θ = ∞ \pi(\theta)\ge0,\int^\infty_{-\infty}\pi(\theta)d\theta=\infty π(θ)0,π(θ)dθ=
  • 2. π ( θ ∣ x ) 是 正 常 的 密 度 函 数 \pi(\theta|x)是正常的密度函数 π(θx)
    . 若 π ( θ ) 是 广 义 先 验 , 则 c π ( θ ) 也 是 广 义 先 验 \pi(\theta)是广义先验,则c\pi(\theta)也是广义先验 π(θ)广,cπ(θ)广
    π ( θ ∣ x ) = h ( x , θ ) m ( x ) = p ( x ∣ θ ) π ( θ ) ∫ p ( x ∣ θ ) π ( θ ) d θ \pi(\theta|x)=\frac{h(x,\theta)}{m(x)}=\frac{p(x|\theta)\pi(\theta)}{\int p(x|\theta)\pi(\theta)d\theta} π(θx)=m(x)h(x,θ)=p(xθ)π(θ)dθp(xθ)π(θ)
    ∫ π ( θ ∣ x ) d θ = 1 \int \pi(\theta|x)d\theta=1 π(θx)dθ=1

2. 位置参数的无信息先验

<<贝叶斯分析>> P 49 P_{49} P49
位置参数族:平移变换下的不变性
π ( θ ) = 1 \pi(\theta)=1 π(θ)=1

例1
在这里插入图片描述例2

在这里插入图片描述

3.尺度参数的无信息先验

尺度参数族举例:

  • p ( x ∣ σ ) = 1 2 π σ 2 e − x 2 2 σ 2 p(x|\sigma)=\frac{1}{\sqrt{2\pi \sigma^2}}e^{-\frac{x^2}{2\sigma^2}} p(xσ)=2πσ2 1e2σ2x2
  • p ( x ∣ β ) = 1 π β 1 1 + ( x β ) 2 p(x|\beta)=\frac{1}{\pi \beta}\frac{1}{1+(\frac{x}{\beta})^2} p(xβ)=πβ11+(βx)21
  • p ( x ∣ λ ) = 1 λ e x λ , x &gt; 0 p(x|\lambda)=\frac{1}{\lambda}e^{\frac{x}{\lambda}},x \gt 0 p(xλ)=λ1eλx,x>0

尺度参数族:尺度变换下的不变性<<贝叶斯分析>> P 51 P_{51} P51

{ f ( x , θ ) → 1 θ f ( x θ ) , θ ∈ R + } \{f(x,\theta) \to \frac{1}{\theta}f(\frac{x}{\theta}), \theta \in \Bbb R^+ \} {f(x,θ)θ1f(θx),θR+}

π ( σ ) = 1 σ \pi(\sigma)=\frac{1}{\sigma} π(σ)=σ1:

Y = c X , ( c ∈ R + ) Y=cX,(c \in \Bbb R^+) Y=cX,(cR+)
f Y ( y ) = 1 c θ f ( y c θ ) f_Y(y)=\frac{1}{c\theta}f(\frac{y}{c\theta}) fY(y)=cθ1f(cθy)
η = c θ \eta = c\theta η=cθ
f Y ( y ) = 1 η f ( y η ) f_Y(y)=\frac{1}{\eta}f(\frac{y}{\eta}) fY(y)=η1f(ηy)

σ 的 无 信 息 先 验 与 η 的 无 信 息 先 验 应 当 相 同 . 有 : \sigma的无信息先验与\eta的无信息先验应当相同.有: ση.:
(3.1) π ( τ ) = π ∗ ( τ ) \pi(\tau) = \pi^*(\tau)\tag{3.1} π(τ)=π(τ)(3.1)
其中 π ∗ ( τ ) 为 η \pi^*(\tau)为\eta π(τ)η的先验分布,另一方面,由变换 η = c σ , 可 知 η \eta=c\sigma,可知\eta η=cσ,η的无信息先验为:
(3.2) π ∗ ( η ) = π ( σ ) ∣ σ = η c ⋅ ∣ d σ d η ∣ = 1 c π ( η c ) \pi^*(\eta)=\pi(\sigma)|_{\sigma=\frac{\eta}{c}}\cdot|\frac{d\sigma}{d\eta}|=\frac{1}{c}\pi(\frac{\eta}{c})\tag{3.2} π(η)=π(σ)σ=cηdηdσ=c1π(cη)(3.2)
比较(3.1)和(3.2)得:
π ( η ) = π ∗ ( η ) = 1 c π ( η c ) \pi(\eta)=\pi^*(\eta)=\frac{1}{c}\pi(\frac{\eta}{c}) π(η)=π(η)=c1π(cη)
η = c , 有 : \eta=c,有: η=c,:
π ( c ) = 1 c π ( 1 ) \pi(c)=\frac{1}{c}\pi(1) π(c)=c1π(1)
为方便计算, 令 π ( 1 ) = 1 \pi(1)=1 π(1)=1,由c的任意性,可得 σ \sigma σ的无信息先验为:
π ( σ ) = 1 σ , ( σ &gt; 0 ) \pi(\sigma)=\frac{1}{\sigma},(\sigma \gt 0) π(σ)=σ1,(σ>0)

在这里插入图片描述在这里插入图片描述

4.一般情况:Jeffreys无信息先验

π ( θ ) = ∣ I ( θ ) ∣ 1 / 2 \pi(\theta)=|I(\theta)|^{1/2} π(θ)=I(θ)1/2"| |"表示行列式
在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述

七.共轭先验分布

1.共轭先验分布

设 F 表 示 θ 的 先 验 分 布 π ( θ ) 构 成 的 分 布 族 , 如 果 取 的 π ∈ F , 后 验 分 布 π ( θ ∣ x ) ∈ F , 那 么 称 F 是 一 个 共 轭 先 验 分 布 . 设\mathscr F表示\theta的先验分布\pi(\theta)构成的分布族,如果取的\pi \in \mathscr F,后验分布\pi(\theta|x)\in \mathscr F,那么称\mathscr F是一个共轭先验分布. Fθπ(θ),πF,π(θx)F,F.(先验分布和后验分布同一个分布族)

  • 二项分布,其参数的共轭分布族是贝塔分布.

在这里插入图片描述

  • 方差已知的正态分布,均值的共轭分布族是正态分布族.
    在这里插入图片描述
  • 泊松分布, 参数的共轭分布族是伽马分布.
    在这里插入图片描述

2.求共轭先验分布

  • 指数分布,参数的共轭分布族是伽马分布.
    在这里插入图片描述

  • -均值已知的正态分布, 方差的共轭分布族是逆伽马分布.
    在这里插入图片描述

八.多层先验分布

当先验分布中的超参数无法确定时,可以对超参数再给出一个先验
分布,这个给出的第二个先验就是超先验。
设参数 θ \theta θ 的先验分布是 π 1 ( θ ∣ λ ) \pi_1(\theta|\lambda) π1(θλ) ,其中 λ \lambda λ 是超参数给出超参数 λ \lambda λ的超先验分布 π 2 ( λ ) \pi_2(\lambda) π2(λ)则有 θ \theta θ λ \lambda λ 的联合分布式是:
π 1 ( θ ∣ λ ) π 2 ( λ ) \pi_1(\theta|\lambda)\pi_2(\lambda) π1(θλ)π2(λ)
参数 θ \theta θ 的先验分布是:
π ( θ ) = ∫ π 1 ( θ ∣ λ ) π 2 ( λ ) d λ \pi(\theta)=\int \pi_1(\theta| \lambda)\pi_2(\lambda)d\lambda π(θ)=π1(θλ)π2(λ)dλ
以此类推,可以得到三层以致多层先验.

在这里插入图片描述

后验分布与充分性

  • 定义:设总体 X 的分布函数为 F ( x , θ ) F ( x , \theta ) F(x,θ) , 样本: X 1 , X 2 , . . . , X n X_1 , X_2 ,..., X_n X1,X2,...,Xn,统计量 T ( X 1 , X 2 , . . . , X n ) T ( X_1 , X_2 ,..., X_n ) T(X1,X2,...,Xn). 若给定 T 后,  X 1 , X 2 , . . . , X n X_1 , X_2 ,..., X_n X1,X2,...,Xn 的条件分布与参数 θ \theta θ 无关, 则称统计量 T ( X 1 , X 2 , . . . , X n ) T ( X_1 , X_2 ,..., X_n ) T(X1,X2,...,Xn) θ \theta θ充分统计量.

  • 因子分解定理:
    T = T ( x 1 , x 2 , ⋯ &ThinSpace; , x n ) T=T(x_1,x_2,\cdots,x_n) T=T(x1,x2,,xn)是一个充分统计量的充要条件是对任一的 θ \theta θ,存在两个函数 g ( t , θ ) g(t,\theta) g(t,θ) h ( x 1 , x 2 , ⋯ &ThinSpace; , x n ) h(x_1,x_2,\cdots,x_n) h(x1,x2,,xn),有:
    p ( x 1 , x 2 , ⋯ &ThinSpace; , x n , θ ) = g ( T ( x 1 , x 2 , ⋯ &ThinSpace; , x n ) , θ ) h ( x 1 , x 2 , ⋯ &ThinSpace; , x n ) p(x_1,x_2,\cdots,x_n,\theta)=g\left( T(x_1,x_2,\cdots,x_n),\theta \right)h(x_1,x_2,\cdots,x_n) p(x1,x2,,xn,θ)=g(T(x1,x2,,xn),θ)h(x1,x2,,xn)

  • 后验分布引理
    Γ \Gamma Γ 是未知参数 θ \theta θ 的先验分布类 π ( θ ) ∈ Γ \pi(\theta) \in \Gamma π(θ)Γ , 若 Γ \Gamma Γ θ \theta θ 的充分统计量,则对  ∀ π ∈ Γ \forall \pi \in \Gamma πΓ ,有:
    π ( θ ∣ x ) = π ~ ( θ ∣ t ) \pi(\theta|x)=\tilde \pi(\theta|t) π(θx)=π~(θt)
    证明:
    设 T 的概率函数为: q ( t ∣ θ ) q(t|\theta) q(tθ),
    由充分统计量的定义: p X ∣ T ( x ∣ t ) = p ( x ∣ θ ) q ( t ∣ θ ) = C ( x ) p_{X|T}(x|t)=\frac{p(x|\theta)}{q(t|\theta)}=C(x) pXT(xt)=q(tθ)p(xθ)=C(x)
    p ( x ∣ θ ) = q ( t ∣ θ ) C ( x ) p(x|\theta)=q(t|\theta)C(x) p(xθ)=q(tθ)C(x)
    由因子分解定理有: p ( x ∣ θ ) = g ( t , θ ) h ( x ) , q ( t ∣ θ ) ∝ g ( t ∣ θ ) p(x|\theta)=g(t,\theta)h(x), q(t|\theta) \propto g(t|\theta) p(xθ)=g(t,θ)h(x),q(tθ)g(tθ)

π ( θ ∣ x ) = h ( x , θ ) m ( x ) = π ( θ ) p ( x ∣ θ ) ∫ π ( θ ) p ( x ∣ θ ) d θ = π ( θ ) q ( t ∣ θ ) C ( x ) ∫ π ( θ ) q ( t ∣ θ ) C ( x ) d θ = π ( θ ) q ( t ∣ θ ) ∫ π ( θ ) q ( t ∣ θ ) d θ = π ~ ( θ ∣ t ) \begin{aligned} \pi(\theta|x) &amp; =\frac{h(x,\theta)}{m(x)}\\ &amp; =\frac{\pi(\theta)p(x|\theta)}{\int \pi(\theta)p(x|\theta)d\theta} \\ &amp;=\frac{\pi(\theta)q(t|\theta)C(x)}{\int \pi(\theta)q(t|\theta)C(x)d\theta} \\ &amp; =\frac{\pi(\theta)q(t|\theta)}{\int \pi(\theta)q(t|\theta)d\theta}\\ &amp; =\tilde \pi(\theta|t) \end{aligned} π(θx)=m(x)h(x,θ)=π(θ)p(xθ)dθπ(θ)p(xθ)=π(θ)q(tθ)C(x)dθπ(θ)q(tθ)C(x)=π(θ)q(tθ)dθπ(θ)q(tθ)=π~(θt)
在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述

回顾充分统计量

因子分解定理

后验分布引理

Γ \Gamma Γ 是未知参数 θ \theta θ 的先验分布类 π ( θ ) ∈ Γ \pi(\theta)\in \Gamma π(θ)Γ , 若 T 是 θ \theta θ的充分统计量,则对 ∀ π ∈ Γ \forall \pi \in \Gamma πΓ , 有:
π ( θ ∣ x ) = π ~ ( θ ∣ t ) \pi(\theta|x)=\tilde \pi(\theta|t) π(θx)=π~(θt)
证明:
设T的概率函数为 q ( t ∣ θ ) q(t|\theta) q(tθ),
由充分统计量 p X ∣ T ( x ∣ t ) = p ( x ∣ θ ) q ( t ∣ θ ) = C ( x ) p_{X|T}(x|t)=\frac{p(x|\theta)}{q(t|\theta)}=C(x) pXT(xt)=q(tθ)p(xθ)=C(x)
由因子分解定理 p ( x ∣ θ ) = g ( t ∣ θ ) h ( x ) , q ( t ∣ θ ) ∝ g ( t ∣ θ ) p(x|\theta)=g(t|\theta)h(x),q(t|\theta) \propto g(t|\theta) p(xθ)=g(tθ)h(x),q(tθ)g(tθ)
p ( x ∣ θ ) = q ( t ∣ θ ) C ( x ) p(x|\theta)=q(t|\theta)C(x) p(xθ)=q(tθ)C(x)
π ( θ ∣ x ) = h ( x , θ ) m ( x ) = π ( θ ) p ( x ∣ θ ) ∫ π ( θ ) p ( x ∣ θ ) d θ = π ( θ ) q ( t ∣ θ ) C ( x ) ∫ π ( θ ) q ( t ∣ θ ) C ( x ) d θ = π ( θ ) q ( t ∣ θ ) ∫ π ( θ ) q ( t ∣ θ ) d θ = π ~ ( θ ∣ t ) \begin{aligned} \pi(\theta|x)=\frac{h(x,\theta)}{m(x)} &amp; =\frac{\pi(\theta)p(x|\theta)}{\int \pi(\theta)p(x|\theta)d\theta}\\ &amp; = \frac{\pi(\theta)q(t|\theta)C(x)}{\int \pi(\theta)q(t|\theta)C(x)d\theta} \\ &amp; = \frac{\pi(\theta)q(t|\theta)}{\int \pi (\theta) q(t|\theta )d\theta}\\ &amp; = \tilde \pi(\theta|t) \end{aligned} π(θx)=m(x)h(x,θ)=π(θ)p(xθ)dθπ(θ)p(xθ)=π(θ)q(tθ)C(x)dθπ(θ)q(tθ)C(x)=π(θ)q(tθ)dθπ(θ)q(tθ)=π~(θt)

Reference先验

KL散度定义:

设两个概率分布P(x),q(x),KL距离(散度)为,
K L ( p ( x ) , q ( x ) ) = ∫ l n ( p ( x ) q ( x ) ) p ( x ) d x = E p ( l n ( p ( x ) q ( x ) ) ) KL(p(x),q(x))=\int ln(\frac{p(x)}{q(x)})p(x)dx=E_p(ln(\frac{p(x)}{q(x)})) KL(p(x),q(x))=ln(q(x)p(x))p(x)dx=Ep(ln(q(x)p(x)))
即连续型随机变量相对熵.

显然:

  • 1). K L ( p ( x ) , q ( x ) )   ! = K L ( q ( x ) , p ( x ) ) KL(p(x),q(x)) \ != KL(q(x),p(x)) KL(p(x),q(x)) !=KL(q(x),p(x))
  • 2). K L ( p ( x ) , q ( x ) ) ≥ 0 KL(p(x),q(x))\ge 0 KL(p(x),q(x))0

E p ( − l n p ( x ) q ( x ) ) = E p ( l n q ( x ) p ( x ) ) ≤ l n E p ( q ( x ) p ( x ) ) E_p(-ln\frac{p(x)}{q(x)})=E_p(ln\frac{q(x)}{p(x)}) \le lnE_p(\frac{q(x)}{p(x)}) Ep(lnq(x)p(x))=Ep(lnp(x)q(x))lnEp(p(x)q(x))
l n E p ( q ( x ) p ( x ) ) = l n ∫ ( q ( x ) p ( x ) ) p ( x ) d x = 0 lnE_p(\frac{q(x)}{p(x)})=ln\int(\frac{q(x)}{p(x)})p(x)dx=0 lnEp(p(x)q(x))=ln(p(x)q(x))p(x)dx=0

Reference先验

I π ( θ ) ( θ , x ) = ∫ X p ( x ) [ ∫ Θ π ( θ ∣ x ) l n π ( θ ∣ x ) π ( θ ) d θ ] d x = E X ( K L ( π ( θ , x ) , π ( θ ) ) ) \begin{aligned} I_{\pi(\theta)}(\theta,x) &amp; =\int_Xp(x)[\int_\Theta\pi(\theta|x)ln\frac{\pi(\theta|x)}{\pi(\theta)}d\theta]dx \\ &amp; = E_X(KL(\pi(\theta,x),\pi(\theta))) \end{aligned} Iπ(θ)(θ,x)=Xp(x)[Θπ(θx)lnπ(θ)π(θx)dθ]dx=EX(KL(π(θ,x),π(θ)))
其中p(x)为样本X的边缘分布.若 π ∗ ( θ ) \pi^*(\theta) π(θ)满足:
I π ∗ ( θ ) ( θ , x ) = max ⁡ π ( θ ) { I π ( θ ) ( θ , x ) } I_{\pi^*(\theta)}(\theta,x)=\max_{\pi(\theta)} \{ I_{\pi(\theta)}(\theta,x) \} Iπ(θ)(θ,x)=π(θ)max{Iπ(θ)(θ,x)}
则称 π ∗ ( θ ) = a r g max ⁡ π ( θ ) { I π ( θ ) ( θ , x ) } 为 参 数 θ 的 R e f e r e n c e 先 验 \pi^*(\theta)=arg\max_{\pi(\theta)}\{ I_{\pi(\theta)}(\theta,x) \}为参数\theta的Reference先验 π(θ)=argmaxπ(θ){Iπ(θ)(θ,x)}θReference

积分换序:
I π ( θ ) ( θ , x ) = ∫ Θ [ ∫ X p ( x ) π ( θ ∣ x ) l n π ( θ ∣ x ) π ( θ ) d x ] d θ = ∫ Θ π ( θ ) [ ∫ X p ( x ∣ θ ) ( l n π ( θ ∣ x ) − l n ( π ( θ ) ) ) d x ] d θ = ∫ Θ π ( θ ) [ ∫ X p ( x ∣ θ ) ( l n π ( θ ∣ x ) d x − ∫ X p ( x ∣ θ ) l n ( π ( θ ) ) d x ] d θ \begin{aligned} I_{\pi(\theta)}(\theta,x) &amp;=\int_\Theta[\int_Xp(x)\pi(\theta|x)ln\frac{\pi(\theta|x)}{\pi(\theta)}dx]d\theta \\ &amp;=\int_\Theta \pi(\theta)[\int_X p(x|\theta)(ln\pi(\theta|x)-ln(\pi(\theta)))dx]d\theta \\ &amp; = \int_\Theta \pi(\theta)[\int_X p(x|\theta)(ln\pi(\theta|x)dx-\int _X p(x|\theta)ln(\pi(\theta))dx]d\theta \end{aligned} Iπ(θ)(θ,x)=Θ[Xp(x)π(θx)lnπ(θ)π(θx)dx]dθ=Θπ(θ)[Xp(xθ)(lnπ(θx)ln(π(θ)))dx]dθ=Θπ(θ)[Xp(xθ)(lnπ(θx)dxXp(xθ)ln(π(θ))dx]dθ
I π ( θ ) ( θ , x ) = ∫ Θ π ( θ ) [ ∫ X p ( x ∣ θ ) ( l n π ( θ ∣ x ) d x ⎵ − ∫ X p ( x ∣ θ ) l n ( π ( θ ) ) d x ] d θ I_{\pi(\theta)}(\theta,x) = \int_\Theta \pi(\theta)[\underbrace{\int_X p(x|\theta)(ln\pi(\theta|x)dx}-\int _X p(x|\theta)ln(\pi(\theta))dx]d\theta Iπ(θ)(θ,x)=Θπ(θ)[ Xp(xθ)(lnπ(θx)dxXp(xθ)ln(π(θ))dx]dθ
l n f n ( θ ) = ∫ X p ( x ∣ θ ) l n π ( θ ∣ x ) d x lnf_n(\theta)=\int_X p(x|\theta)ln\pi(\theta|x)dx lnfn(θ)=Xp(xθ)lnπ(θx)dx
I π ( θ ) ( θ , x ) = ∫ Θ π ( θ ) l n f n ( θ ) π ( θ ) d θ I_{\pi(\theta)}(\theta,x)=\int_\Theta \pi(\theta)ln\frac{f_n(\theta)}{\pi(\theta)}d\theta Iπ(θ)(θ,x)=Θπ(θ)lnπ(θ)fn(θ)dθ
π ∗ ( θ ) = lim ⁡ n → ∞ f n ( θ ) f n ( θ 0 ) \pi^*(\theta)=\lim_{n\to \infty}\frac{f_n(\theta)}{f_n(\theta_0)} π(θ)=nlimfn(θ0)fn(θ)
其中 θ 0 \theta_0 θ0是参数空间 Θ \Theta Θ的一个内点.
参考<<贝叶斯分析P65>>

Reference先验计算

二维参数为例子:分布族 p ( x ∣ θ , λ ) p(x|\theta,\lambda) p(xθ,λ) ,样本为 X 1 , X 2 , ⋯ &ThinSpace; , X n X_1,X_2,\cdots,X_n X1,X2,,Xn
参数信息阵:
I ( θ , λ ) = [ I 11 ( θ , λ )    I 12 ( θ , λ ) I 21 ( θ , λ )    I 22 ( θ , λ ) ] I(\theta,\lambda)=\begin{bmatrix} I_{11}(\theta,\lambda) \ \ I_{12}(\theta,\lambda) \\ I_{21}(\theta, \lambda) \ \ I_{22}(\theta, \lambda) \end{bmatrix} I(θ,λ)=[I11(θ,λ)  I12(θ,λ)I21(θ,λ)  I22(θ,λ)]

  • 1).固定 θ \theta θ,获得先验分布: π ( λ ∣ θ ) = I 22 1 / 2 ( θ , λ ) \pi(\lambda|\theta) = I^{1/2}_{22}(\theta,\lambda) π(λθ)=I221/2(θ,λ)
  • 2).如果 π ( λ ∣ θ ) 是 正 常 先 验 分 布 , 直 接 消 参 数 \pi(\lambda|\theta)是正常先验分布,直接消参数 π(λθ),:
    p ( x ∣ θ ) ∫ X p ( x ∣ θ , λ ) π ( λ ∣ θ ) d λ p(x|\theta)\int_X p(x|\theta,\lambda)\pi(\lambda|\theta)d\lambda p(xθ)Xp(xθ,λ)π(λθ)dλ
  • 3).根据 p ( x ∣ θ ) , 确 定 θ 的 先 验 分 布 π ( θ ) p(x|\theta),确定\theta的先验分布\pi(\theta) p(xθ),θπ(θ)
  • 4).获得联合先验分布:
    π ( θ , λ ) = π ( θ ) π ( λ ∣ θ ) \pi(\theta,\lambda)=\pi(\theta)\pi(\lambda|\theta) π(θ,λ)=π(θ)π(λθ)
    如果 π ( λ ∣ θ ) 是 非 正 常 先 验 分 布 集 \pi(\lambda|\theta)是非正常先验分布集 π(λθ):
  • (1.划分出 λ 的 逼 近 闭 参 数 空 间 \lambda的逼近闭参数空间 λ
    Θ 1 ⊂ Θ 2 ⊂ ⋯ ⊂ Θ k ⋯ &ThinSpace; , ∪ k Θ k = Θ \Theta_1 \subset \Theta_2 \subset \cdots \subset \Theta_k \cdots, \cup_k \Theta_k = \Theta Θ1Θ2Θk,kΘk=Θ
  • (2.在 Θ 上 , 确 定 π k ( λ ∣ θ ) 是 正 常 先 验 分 布 , π k ( λ ∣ θ ) = A k ( θ ) π ( λ ∣ θ ) , A k ( θ ) = 1 ∫ Θ k π ( λ ∣ θ ) d λ \Theta上,确定\pi_k(\lambda|\theta)是正常先验分布,\pi_k(\lambda|\theta)=A_k(\theta)\pi(\lambda|\theta),A_k(\theta)=\frac{1}{\int_{\Theta_k}\pi(\lambda|\theta)d\lambda} Θ,πk(λθ),πk(λθ)=Ak(θ)π(λθ),Ak(θ)=Θkπ(λθ)dλ1按照前面步骤二,确定 π k ( θ ) \pi_k(\theta) πk(θ)
    π k ( θ ) = e x p { 1 2 ∫ Θ k π k ( λ ∣ θ ) l n ∣ I ( λ , θ ) ∣ ∣ I 22 ( λ , θ ) ∣ d λ } \pi_k(\theta)=exp\{ \frac{1}{2} \int_{\Theta_k} \pi_k(\lambda|\theta) ln\frac{|I(\lambda,\theta)|}{|I_{22}(\lambda,\theta)|} d\lambda\} πk(θ)=exp{21Θkπk(λθ)lnI22(λ,θ)I(λ,θ)dλ}
  • (3. π ( θ , λ ) = l i m k → ∞ A k ( θ ) π k ( θ ) A k ( θ 0 ) π k ( θ 0 ) π ( θ ∣ λ ) \pi(\theta,\lambda)=lim_{k \to \infty}\frac{A_k(\theta)\pi_k(\theta)}{A_k(\theta_0)\pi_k(\theta_0)}\pi(\theta|\lambda) π(θ,λ)=limkAk(θ0)πk(θ0)Ak(θ)πk(θ)π(θλ)
    如果参数维数多于二维 ,类似二维多次循环进行
    π ( θ 1 , θ 2 , ⋯ &ThinSpace; , θ k ) = π ( θ 1 ) π ( θ 2 ∣ θ 1 ) π ( θ k ∣ θ 1 , θ 2 , ⋯ &ThinSpace; , θ k − 1 ) \pi(\theta_1,\theta_2,\cdots,\theta_k)=\pi(\theta_1)\pi(\theta_2|\theta_1)\pi(\theta_k|\theta_1,\theta_2,\cdots,\theta_{k-1}) π(θ1,θ2,,θk)=π(θ1)π(θ2θ1)π(θkθ1,θ2,,θk1)

在这里插入图片描述在这里插入图片描述

最大熵先验

定义1: 设 θ \theta θ为离散型随机变量 , 分布律为: p ( θ = θ i ) = p i , i = 1 , 2 , ⋯ p(\theta=\theta_i)=p_i,i=1,2,\cdots p(θ=θi)=pi,i=1,2,
则称 E ( p ) = − ∑ i p i l n p i E(p)=-\sum_ip_ilnp_i E(p)=ipilnpi
为随机变量的熵函数.
H ( x , y ) = H ( x ) + H ( y ) H(x,y)=H(x)+H(y) H(x,y)=H(x)+H(y)
P ( x , y ) = P ( x ) P ( y ) P(x,y) = P(x)P(y) P(x,y)=P(x)P(y)
H ( x ) = − l n p ( x ) H(x)=-lnp(x) H(x)=lnp(x)

  • 1). p → 0 或 p → 1 是 , 有 − p l n p → 0 p\to 0或p\to1是,有-plnp \to 0 p0p1,plnp0
  • 2). ∑ i = 1 n p i = 1 时 , 当 p 1 = p 2 = ⋯ = p n 有 − ∑ i = 1 n p i l n p i 最 大 . \sum^n_{i=1}p_i=1时,当p_1=p_2=\cdots=p_n有-\sum^n_{i=1}p_ilnp_i最大. i=1npi=1,p1=p2==pni=1npilnpi.

连续性:
E ( π ) = − ∫ π ( θ ) l n π ( θ ) π 0 ( θ ) d θ E(\pi)=-\int \pi(\theta)ln\frac{\pi(\theta)}{\pi_0(\theta)}d\theta E(π)=π(θ)lnπ0(θ)π(θ)dθ
π 0 ( θ ) 是 不 变 的 无 信 息 先 验 \pi_0(\theta)是不变的无信息先验 π0(θ)

定理1(离散型):

设 θ 为 离 散 型 随 机 变 量 , θ i , i = 1 , 2 , ⋯ &ThinSpace; , 满 足 条 件 : 设\theta为离散型随机变量, \theta_i,i=1,2,\cdots,满足条件: θ,θi,i=1,2,,:
E π ( g k ( θ ) ) = ∑ i g k ( θ i ) π ( θ i ) = μ k , k = 1 , 2 , ⋯ &ThinSpace; , m E^\pi(g_k(\theta))=\sum_ig_k(\theta_i)\pi(\theta_i)=\mu_k,k=1,2,\cdots,m Eπ(gk(θ))=igk(θi)π(θi)=μk,k=1,2,,m
其 中 g k ( ⋅ ) , μ k ( k = 1 , ⋯ &ThinSpace; , m ) 分 别 表 示 已 知 的 函 数 和 已 知 的 常 数 . 同 时 还 有 隐 藏 条 件 ∑ i π ( θ i ) = 1. 其中g_k(\cdot),\mu_k(k=1,\cdots,m)分别表示已知的函数和已知的常数.同时还有隐藏条件\sum_i \pi(\theta_i)=1. gk(),μk(k=1,,m).iπ(θi)=1.
则满足条件的最大熵先验为:
π ˉ ( θ i ) = e x p { ∑ k = 1 m λ k g k ( θ i ) } ∑ i e x p { ∑ k = 1 m λ k g k ( θ i ) } \bar \pi(\theta_i)=\frac{exp\{ \sum^m_{k=1} \lambda_kg_k(\theta_i) \}}{\sum_iexp\{ \sum^m_{k=1} \lambda_k g_k(\theta_i) \}} πˉ(θi)=iexp{k=1mλkgk(θi)}exp{k=1mλkgk(θi)}
其 中 λ k 是 保 证 π ˉ ( θ ) 满 足 约 束 条 件 的 常 数 . 其中\lambda_k是保证\bar \pi(\theta)满足约束条件的常数. λkπˉ(θ).

在这里插入图片描述

定理2(连续型):

设 θ 为 连 续 型 随 机 变 量 , θ i , i = 1 , 2 , ⋯ &ThinSpace; , 满 足 条 件 : 设\theta为连续型随机变量, \theta_i,i=1,2,\cdots,满足条件: θ,θi,i=1,2,,:
E π ( g k ( θ ) ) = ∫ i g k ( θ ) π ( θ ) d θ = μ k , k = 1 , 2 , ⋯ &ThinSpace; , m E^\pi(g_k(\theta))=\int_i g_k(\theta)\pi(\theta)d\theta=\mu_k,k=1,2,\cdots,m Eπ(gk(θ))=igk(θ)π(θ)dθ=μk,k=1,2,,m
其 中 g k ( ⋅ ) , μ k ( k = 1 , ⋯ &ThinSpace; , m ) 分 别 表 示 已 知 的 函 数 和 已 知 的 常 数 . 同 时 还 有 隐 藏 条 件 ∑ i π ( θ i ) = 1. 其中g_k(\cdot),\mu_k(k=1,\cdots,m)分别表示已知的函数和已知的常数.同时还有隐藏条件\sum_i \pi(\theta_i)=1. gk(),μk(k=1,,m).iπ(θi)=1.
则满足条件的最大熵先验为:
π ˉ ( θ i ) = π 0 ( θ ) e x p { ∑ k = 1 m λ k g k ( θ ) } ∫ Θ π 0 ( θ ) e x p { ∑ k = 1 m λ k g k ( θ ) } d θ \bar \pi(\theta_i)=\frac{\pi_0(\theta) exp\{ \sum^m_{k=1} \lambda_kg_k(\theta) \}}{\int_{\Theta} \pi_0(\theta)exp\{ \sum^m_{k=1} \lambda_k g_k(\theta) \}d\theta} πˉ(θi)=Θπ0(θ)exp{k=1mλkgk(θ)}dθπ0(θ)exp{k=1mλkgk(θ)}
其 中 λ k 是 保 证 π ˉ ( θ ) 满 足 约 束 条 件 的 常 数 . 其中\lambda_k是保证\bar \pi(\theta)满足约束条件的常数. λkπˉ(θ).

在这里插入图片描述

第三章:贝叶斯统计推断

点估计

已知总体X参数的后验分布: π ( θ ∣ x 1 , ⋯ &ThinSpace; , x n ) \pi(\theta|x_1,\cdots,x_n) π(θx1,,xn)

1).最大后验估计:

也称后验众数估计,后验极大似然估计:
π ( θ ∣ x 1 , x 2 , ⋯ &ThinSpace; , x n ) \pi(\theta|x_1,x_2,\cdots,x_n) π(θx1,x2,,xn)

最大值点 θ ^ M D \hat \theta_{MD} θ^MD.

即,将后验分布求其似然函数的最大值(MLE).

2).后验中位数估计: θ ^ M E \hat \theta_{ME} θ^ME

P ( θ &gt; θ ^ ∣ x 1 , x 2 , ⋯ &ThinSpace; , x n ) = P ( θ &lt; θ ^ ∣ x 1 , x 2 , ⋯ &ThinSpace; , x n ) P(\theta &gt; \hat \theta|x_1,x_2,\cdots,x_n)=P(\theta&lt;\hat \theta|x_1,x_2,\cdots,x_n) P(θ>θ^x1,x2,,xn)=P(θ<θ^x1,x2,,xn)

3).后验期望估计:

θ ^ = E ( θ ∣ x 1 , x 2 , ⋯ &ThinSpace; , x n ) = θ ^ E \hat \theta=E(\theta|x_1,x_2,\cdots,x_n)=\hat \theta_E θ^=E(θx1,x2,,xn)=θ^E

点估计的误差估计

  • 后验分布: π ( θ ∣ x 1 , ⋯ &ThinSpace; , x n ) . 贝 叶 斯 估 计 : θ ^ = δ ( x 1 , ⋯ &ThinSpace; , x n ) \pi(\theta|x_1,\cdots,x_n).贝叶斯估计:\hat \theta =\delta(x_1,\cdots,x_n) π(θx1,,xn).:θ^=δ(x1,,xn)
  • 后验均方误差:
    P M S E ( δ ( x ) ) = E θ ∣ x ( θ − δ ( x 1 , x 2 , ⋯ &ThinSpace; , x n ) ) 2 PMSE(\delta(x))=E_{\theta|x}(\theta-\delta(x_1,x_2,\cdots,x_n))^2 PMSE(δ(x))=Eθx(θδ(x1,x2,,xn))2
    该值越小越好
    当 θ ^ = θ ^ E , 即 θ ^ = E θ ∣ x ( θ ) 当\hat \theta=\hat \theta_E,即\hat \theta=E_{\theta|x}(\theta) θ^=θ^E,θ^=Eθx(θ)
    P M S E ( θ ^ E ) = E θ ∣ x ( θ − θ ^ E ) 2 = D θ ∣ x ( θ ) = V ( x ) PMSE(\hat \theta_E)=E_{\theta|x}{(\theta-\hat \theta_E)}^2=D_{\theta|x}(\theta)=V(x) PMSE(θ^E)=Eθx(θθ^E)2=Dθx(θ)=V(x)
    后验均值估计使得后验均方误差达到最小.

区间估计

已 知 θ 的 后 验 分 布 π ( θ ∣ x ) , 对 于 给 定 的 样 本 x 和 x 和 概 率 1 − α , 若 存 在 两 个 统 计 量 θ ^ 1 ( x ) , θ ^ 2 ( x ) , 有 已知 \theta 的后验分布 \pi ( \theta | x ), 对于给定的样本x和x 和概率 1-\alpha,若存在两个统计量\hat \theta_1( x ), \hat \theta_2 ( x ) ,有 θπ(θx),xx1α,θ^1(x),θ^2(x),
P ( θ ^ 1 ( x ) ) ≤ θ ≤ θ ^ 2 ( x ) ∣ x ) ≥ 1 − α P(\hat \theta_1(x)) \le \theta \le \hat \theta_2(x)|x) \ge 1-\alpha P(θ^1(x))θθ^2(x)x)1α

则称置信水平为1-\alpah的可信区间: [ θ ^ 1 ( x ) , θ ^ 2 ( x ) ] , [\hat \theta_1(x), \hat \theta_2(x)], [θ^1(x),θ^2(x)],
P ( θ ^ L ( x ) ≤ θ ∣ x ) ≥ 1 − α P(\hat\theta_L(x)\le\theta|x)\ge1-\alpha P(θ^L(x)θx)1α:
则称置信下限为: θ ^ L ( x ) \hat\theta_L(x) θ^L(x)
P ( θ ≤ θ ^ U ( x ) ∣ x ) ≥ 1 − α P(\theta\le\hat\theta_U(x)|x)\ge 1-\alpha P(θθ^U(x)x)1α
则称可信上仙为: θ ^ U ( x ) \hat\theta_U(x) θ^U(x)

最大后验密度可信区间(HPD)

1.定义(最大后验密度可信集):

X~ f ( x ∣ θ ) f(x|\theta) f(xθ),样本: X 1 , X 2 , ⋯ &ThinSpace; , X n , θ 的 后 验 分 布 π ( θ ∣ x ) , 给 定 概 率 1 − α , ( 0 &lt; α &lt; 1 ) , 集 合 C 满 足 如 下 条 件 : X_1,X_2,\cdots,X_n,\theta的后验分布\pi(\theta|x),给定概率1-\alpha,(0&lt;\alpha&lt;1),集合C满足如下条件: X1,X2,,Xn,θπ(θx),1α,(0<α<1),C:

  • P ( θ ∈ C ) = 1 − α P(\theta\in C)=1-\alpha P(θC)=1α
  • 对 任 意 的 θ 1 ∈ C , θ 2 ∉ C , 总 有 π ( θ 1 ∣ x ) &gt; π ( θ 2 ∣ x ) 则 称 C 为 θ 的 置 信 水 平 为 1 − α 最 大 后 验 密 度 可 信 集 . 对任意的\theta_1\in C,\theta_2 \notin C,总有\pi(\theta_1|x)&gt;\pi(\theta_2|x)则称C为\theta的置信水平为1-\alpha最大后验密度可信集. θ1C,θ2/C,π(θ1x)>π(θ2x)Cθ1α.

2.大样本方法

X~ f ( x ∣ θ ) , 样 本 : X 1 , X 2 , ⋯ &ThinSpace; , X n , θ 的 后 验 分 布 π n ( θ ∣ x ) , μ π ( x ) = E ( θ ∣ x ) , V π ( x ) , 当 n 比 较 大 时 , 近 似 的 有 : f(x|\theta),样本:X_1,X_2,\cdots,X_n,\theta的后验分布\pi_n(\theta|x),\mu^\pi(x)=E(\theta|x),V^\pi(x),当n比较大时,近似的有: f(xθ),:X1,X2,,Xn,θπn(θx),μπ(x)=E(θx),Vπ(x),n,:

  • 1). θ − μ π ( x ) \theta-\mu^\pi(x) θμπ(x)~ N ( 0 , V π ( x ) ) N(0,V^\pi(x)) N(0,Vπ(x))
    → ( θ − μ π ( x ) ) T ( V π ( x ) ) − 1 ( θ − μ π ( x ) ) \to (\theta-\mu^\pi(x))^T(V^\pi(x))^{-1}(\theta-\mu^\pi(x)) (θμπ(x))T(Vπ(x))1(θμπ(x))~ χ 2 ( p ) \chi^2(p) χ2(p)
  • 2). θ → { θ ∣ ( θ − μ π ( x ) ) T ( V π ( x ) ) − 1 ( θ − μ π ( x ) ) ≤ χ α 2 ( p ) } \theta \to \{ \theta|(\theta-\mu^\pi(x))^T(V^\pi(x))^{-1}(\theta-\mu^\pi(x)) \le \chi^2_\alpha(p) \} θ{θ(θμπ(x))T(Vπ(x))1(θμπ(x))χα2(p)}

预测推断

1.问题提出

  • 1).X~ f ( x ∣ θ ) , 样 本 : X 1 , X 2 , ⋯ &ThinSpace; , X n , f(x|\theta),样本:X_1,X_2,\cdots,X_n, f(xθ),:X1,X2,,Xn,Z~ g ( z ∣ θ ) , g(z|\theta), g(zθ),推断未观察值 Z 0 Z_0 Z0
    Z ~ g ( z ∣ θ ) g(z|\theta) g(zθ)~ g ( z ∣ θ , x ) g(z|\theta,x) g(zθ,x)

  • 2). X X X~ f ( x ∣ θ ) , 样 本 : X 1 , X 2 , ⋯ &ThinSpace; , X n , 推 断 未 观 测 值 X 0 f(x|\theta), 样本:X_1,X_2,\cdots,X_n,推断未观测值X_0 f(xθ),:X1,X2,,Xn,X0

2.定义

设X~ f ( x ∣ θ ) , 样 本 : X 1 , X 2 , ⋯ &ThinSpace; , X n , θ 的 先 验 分 布 π ( θ ) , θ 的 后 验 分 布 π ( θ ∣ x ) , Z f(x|\theta), 样本:X_1,X_2,\cdots,X_n, \theta的先验分布\pi(\theta),\theta的后验分布\pi(\theta|x),Z f(xθ),:X1,X2,,Xn,θπ(θ),θπ(θx),Z ~ g ( z ∣ θ ) , 定 义 Z 0 的 后 验 预 测 密 度 为 g(z|\theta),定义Z_0的后验预测密度为 g(zθ),Z0:
P ( z 0 ∣ x 1 , ⋯ &ThinSpace; , x n ) = ∫ g ( z 0 ∣ θ ) π ( θ ∣ x 1 , ⋯ &ThinSpace; , x n ) d θ P(z_0|x_1,\cdots,x_n)=\int g(z_0|\theta)\pi(\theta|x_1,\cdots,x_n)d\theta P(z0x1,,xn)=g(z0θ)π(θx1,,xn)dθ

特例情况
P ( x 0 ∣ x 1 , ⋯ &ThinSpace; , x n ) = ∫ f ( x 0 ∣ θ ) π ( θ ∣ x 1 , ⋯ &ThinSpace; , x n ) d θ P(x_0|x_1,\cdots,x_n)=\int f(x_0|\theta)\pi(\theta|x_1,\cdots,x_n)d\theta P(x0x1,,xn)=f(x0θ)π(θx1,,xn)dθ

Z 0 的 预 报 区 间 [ a , b ] 满 足 : Z_0的预报区间[a,b]满足: Z0[a,b]:
P ( a ≤ z 0 ≤ b ∣ x 1 , ⋯ &ThinSpace; , x n ) = ∫ a b p ( z 0 ∣ x 1 , ⋯ &ThinSpace; , x n ) d z 0 = 1 − α P(a\le z_0\le b|x_1,\cdots,x_n)=\int^b_a p(z_0|x_1,\cdots,x_n)dz_0=1-\alpha P(az0bx1,,xn)=abp(z0x1,,xn)dz0=1α

x 0 的 预 测 区 间 [ a , b ] 满 足 : x_0的预测区间[a,b]满足: x0[a,b]:
P ( a ≤ x 0 ≤ b ∣ x 1 , ⋯ &ThinSpace; , x n ) = ∫ a b p ( x 0 ∣ x 1 , ⋯ &ThinSpace; , x n ) d z 0 = 1 − α P(a\le x_0\le b|x_1,\cdots,x_n)=\int^b_a p(x_0|x_1,\cdots,x_n)dz_0=1-\alpha P(ax0bx1,,xn)=abp(x0x1,,xn)dz0=1α

假设检验:

H 0 : θ ∈ Θ 0    v s    H 1 : θ ∈ Θ 1 H_0:\theta \in \Theta_0\ \ vs\ \ H_1:\theta\in \Theta_1 H0:θΘ0  vs  H1:θΘ1
计算后验概率: P ( θ ∈ Θ 0 ∣ x 1 , ⋯ &ThinSpace; , x n ) ,   P ( θ ∈ Θ 1 ∣ x 1 , ⋯ &ThinSpace; , x n ) P(\theta \in \Theta_0|x_1,\cdots,x_n),\ P(\theta\in \Theta_1|x_1,\cdots,x_n) P(θΘ0x1,,xn), P(θΘ1x1,,xn)
P ( θ ∈ Θ 0 ∣ x 1 , ⋯ &ThinSpace; , x n ) &gt; P ( θ ∈ Θ 1 ∣ x 1 , ⋯ &ThinSpace; , x n ) , 接 受 H 0 P(\theta \in \Theta_0|x_1,\cdots,x_n) \gt P(\theta \in \Theta_1| x_1,\cdots,x_n),接受H_0 P(θΘ0x1,,xn)>P(θΘ1x1,,xn),H0
H i : θ ∈ Θ i ( i = 1 , 2 , ⋯ &ThinSpace; , k ) H_i:\theta \in \Theta_i(i=1,2,\cdots,k) Hi:θΘi(i=1,2,,k)

α i = P ( θ ∈ Θ i ∣ x ) , 若 α l 最 大 , 则 接 受 H l \alpha_i=P(\theta \in \Theta_i|x),若\alpha_l最大,则接受H_l αi=P(θΘix),αl,Hl

贝叶斯因子

设 两 个 假 设 Θ 0 和 Θ 1 的 先 验 概 率 分 别 为 π 0 和 π 1 , 后 验 概 率 分 别 为 α 0 和 α 1 , 比 率 π 0 π 1 称 为 H 0 对 H 1 先 验 机 会 比 , α 0 α 1 称 为 H 0 对 H 1 后 验 机 会 比 , 且 称 设两个假设\Theta_0和\Theta_1的先验概率分别为\pi_0和\pi_1,后验概率分别为\alpha_0和\alpha_1,比率\frac{\pi_0}{\pi_1}称为H_0对H_1先验机会比,\frac{\alpha_0}{\alpha_1}称为H_0对H_1后验机会比,且称 Θ0Θ1π0π1,α0α1,π1π0H0H1,α1α0H0H1,
B π ( x ) = α 0 α 1 π 0 π 1 = α 0 π 1 α 1 π 0 = α 0 / π 0 α 1 / π 1 B^\pi(x)=\frac{\frac{\alpha_0}{\alpha_1}}{\frac{\pi_0}{\pi_1}}=\frac{\alpha_0\pi_1}{\alpha_1\pi_0}=\frac{\alpha_0/\pi_0}{\alpha_1/\pi_1} Bπ(x)=π1π0α1α0=α1π0α0π1=α1/π1α0/π0

为支持 H 0 H_0 H0的贝叶斯因子.
贝 叶 斯 因 子 B π ( x ) 反 应 数 据 x 支 持 H 0 的 程 度 . B π ( x ) 取 值 越 大 , 对 H 0 的 支 持 程 度 越 高 . 贝叶斯因子B^\pi(x)反应数据x支持H_0的程度.B^\pi(x)取值越大,对H_0的支持程度越高. Bπ(x)xH0.Bπ(x),H0.
拒绝域: α 0 α 1 &lt; 1 \frac{\alpha_0}{\alpha_1}&lt;1 α1α0<1等价于:
B π ( x ) &lt; π 1 π 0 &ThickSpace; ⟺ &ThickSpace; 1 B π ( x ) &gt; π 0 π 1 B^\pi(x)&lt;\frac{\pi_1}{\pi_0} \iff \frac{1}{B^\pi(x)}&gt;\frac{\pi_0}{\pi_1} Bπ(x)<π0π1Bπ(x)1>π1π0

简单vs简单检验

H 0 : Θ 0 = θ 0    v s    H 1 : Θ 1 = θ 1 H_0:\Theta_0={\theta_0}\ \ vs \ \ H_1:\Theta_1=\theta_1 H0:Θ0=θ0  vs  H1:Θ1=θ1

α 0 = P ( θ ∈ Θ 0 ∣ x ) = P ( θ 0 , x ) m ( x ) = π 0 P ( x ∣ θ 0 ) π 0 P ( x ∣ θ 0 ) + π 1 P ( x ∣ θ 1 ) \alpha_0=P(\theta \in \Theta_0|x)=\frac{P(\theta_0,x)}{m(x)}=\frac{\pi_0P(x|\theta_0)}{\pi_0P(x|\theta_0)+\pi_1P(x|\theta_1)} α0=P(θΘ0x)=m(x)P(θ0,x)=π0P(xθ0)+π1P(xθ1)π0P(xθ0)

α 1 = P ( θ ∈ Θ 1 ∣ x ) = π 1 P ( x ∣ θ 1 ) π 0 P ( x ∣ θ 0 ) + π 1 P ( x ∣ θ 1 ) \alpha_1=P(\theta \in \Theta_1| x)=\frac{\pi_1P(x|\theta_1)}{\pi_0P(x|\theta_0)+\pi_1P(x|\theta_1)} α1=P(θΘ1x)=π0P(xθ0)+π1P(xθ1)π1P(xθ1)

α 0 α 1 = π 0 P ( x ∣ θ 0 ) π 1 P ( x ∣ θ 1 ) \frac{\alpha_0}{\alpha_1}=\frac{\pi_0P(x|\theta_0)}{\pi_1P(x|\theta_1)} α1α0=π1P(xθ1)π0P(xθ0)

&ThickSpace; ⟹ &ThickSpace; B π ( x ) = α 0 / α 1 π 0 / π 1 = P ( x ∣ θ 0 ) P ( x ∣ θ 1 ) \implies B^\pi(x)=\frac{\alpha_0/\alpha_1}{\pi_0/\pi_1}=\frac{P(x|\theta_0)}{P(x|\theta_1)} Bπ(x)=π0/π1α0/α1=P(xθ1)P(xθ0)

拒绝域: α 0 α 1 &lt; 1 \frac{\alpha_0}{\alpha_1}&lt;1 α1α0<1等价于:
P ( x ∣ θ 0 ) P ( x ∣ θ 1 ) &gt; π 1 π 0 \frac{P(x|\theta_0)}{P(x|\theta_1)}&gt;\frac{\pi_1}{\pi_0} P(xθ1)P(xθ0)>π0π1
例题:
在这里插入图片描述

复杂-复杂检验

H 0 : Θ 0 ( 非 空 复 合 集 )    v s    H 1 : Θ 1 = Θ 0 − Θ 1 ( 非 空 复 合 集 ) H_0:\Theta_0(非空复合集) \ \ vs \ \ H_1:\Theta_1=\Theta_0-\Theta_1(非空复合集) H0:Θ0()  vs  H1:Θ1=Θ0Θ1()

α 0 = P ( θ ∈ Θ 0 ∣ x ) = P ( Θ 0 , x ) m ( x ) = ∫ Θ 0 π ( θ ) P ( x ∣ θ ) d θ ∫ Θ 0 π ( θ ) P ( x ∣ θ ) d θ + ∫ Θ 1 π ( θ ) P ( x ∣ θ ) d θ \alpha_0=P(\theta \in \Theta_0|x)=\frac{P(\Theta_0,x)}{m(x)}=\frac{\int_{\Theta_0} \pi(\theta)P(x|\theta)d\theta}{\int_{\Theta_0} \pi(\theta) P(x|\theta)d\theta+\int_{\Theta_1} \pi(\theta)P(x|\theta)d\theta} α0=P(θΘ0x)=m(x)P(Θ0,x)=Θ0π(θ)P(xθ)dθ+Θ1π(θ)P(xθ)dθΘ0π(θ)P(xθ)dθ

α 1 = P ( θ ∈ Θ 0 ∣ x ) = P ( Θ 1 , x ) m ( x ) = ∫ Θ 1 π ( θ ) P ( x ∣ θ ) d θ ∫ Θ 0 π ( θ ) P ( x ∣ θ ) d θ + ∫ Θ 1 π ( θ ) P ( x ∣ θ ) d θ \alpha_1=P(\theta \in \Theta_0|x)=\frac{P(\Theta_1,x)}{m(x)}=\frac{\int_{\Theta_1} \pi(\theta)P(x|\theta)d\theta}{\int_{\Theta_0} \pi(\theta) P(x|\theta)d\theta+\int_{\Theta_1} \pi(\theta)P(x|\theta)d\theta} α1=P(θΘ0x)=m(x)P(Θ1,x)=Θ0π(θ)P(xθ)dθ+Θ1π(θ)P(xθ)dθΘ1π(θ)P(xθ)dθ

则 α 0 α 1 = ∫ Θ 0 π ( θ ) P ( x ∣ θ ) d θ ∫ Θ 1 π ( θ ) P ( x ∣ θ ) d θ 则\frac{\alpha_0}{\alpha_1}=\frac{ \int_{\Theta_0} \pi(\theta)P(x|\theta)d\theta }{ \int_{\Theta_1} \pi(\theta)P(x|\theta)d\theta } α1α0=Θ1π(θ)P(xθ)dθΘ0π(θ)P(xθ)dθ
令 π 0 = ∫ Θ 0 π ( θ ) d θ ,   π 1 = ∫ Θ 1 π ( θ ) d θ 令\pi_0 = \int_{\Theta_0} \pi(\theta)d\theta,\ \pi_1=\int_{\Theta_1}\pi(\theta)d\theta π0=Θ0π(θ)dθ, π1=Θ1π(θ)dθ
B π ( x ) = α 0 / α 1 π 0 / π 1 = ∫ Θ 0 π ( θ ) π 0 P ( x ∣ θ ) d θ ∫ Θ 1 π ( θ ) π 1 P ( x ∣ θ ) d θ = m 0 ( x ) m 1 ( x ) B^\pi(x)=\frac{\alpha_0/\alpha_1}{\pi_0/\pi_1}=\frac{ \int_{\Theta_0} \frac{\pi(\theta)}{\pi_0}P(x|\theta)d\theta }{ \int_{\Theta_1} \frac{\pi(\theta)}{\pi_1}P(x|\theta)d\theta }=\frac{m_0(x)}{m_1(x)} Bπ(x)=π0/π1α0/α1=Θ1π1π(θ)P(xθ)dθΘ0π0π(θ)P(xθ)dθ=m1(x)m0(x)

拒绝域: α 0 α 1 &lt; 1 \frac{\alpha_0}{\alpha_1}&lt;1 α1α0<1等价于:
m 0 ( x ) m 1 ( x ) &gt; π 1 π 0 \frac{m_0(x)}{m_1(x)}&gt;\frac{\pi_1}{\pi_0} m1(x)m0(x)>π0π1

例题:
在这里插入图片描述

简单-复杂检验

第四章:贝叶斯统计决策

一.概念

1.样本空间和样本分布族

随 机 变 量 X 取 值 于 样 本 空 间 R , 分 布 族 为 p ( x ∣ θ ) , θ ∈ Θ 随机变量 X 取值于样本空间 \Bbb R ,分布族为 { p( x | \theta ), \theta \in \Theta } XR,p(xθ),θΘ

2.决策空间: 统计决策问题可能采取的行动构成的非空集合.

定 义 在 样 本 空 间 , 取 值 于 决 策 空 间 中 函 数 δ ( x ) 称 为 决 策 函 数 定义在样本空间,取值 于决策空间中函数 \delta (x ) 称为决策函数 ,δ(x)

3.损失函数

定 义 在 Θ × R 的 非 负 可 测 函 数 , 记 L ( θ , δ ( x ) ) 定义在 \Theta \times \Bbb R 的非负可测函数,记L( \theta , \delta ( x )) Θ×R,L(θ,δ(x))

4.统计决策三要素

随 机 变 量 X 的 分 布 族 为 p ( x ∣ θ ) , 决 策 空 间 Θ 和 损 失 函 数 L ( θ , δ ( x ) ) . 随机变量 X 的分布族为 p ( x | \theta ) , 决策空间 \Theta 和损失函数L(\theta,\delta(x)). Xp(xθ),ΘL(θ,δ(x)).

5.风险函数

δ ( x ) \delta (x ) δ(x) 是一个决策函数,平均
损失:
R ( θ , δ ) = E X ∣ θ [ L ( θ , δ ( x ) ) ] = ∫ L ( θ , δ ( x ) ) p ( x ∣ θ ) d x R(\theta,\delta)=E_{X|\theta}[L(\theta,\delta(x))]=\int L(\theta,\delta(x))p(x|\theta)dx R(θ,δ)=EXθ[L(θ,δ(x))]=L(θ,δ(x))p(xθ)dx
δ ( x ) \delta(x) δ(x)的风险函数.
对 每 一 个 θ 的 平 均 损 失 , θ 的 函 数 对每一个 \theta 的平均损失, \theta 的函数 θ,θ
风险函数就是损失函数关于 p ( x ∣ θ ) p(x|\theta) p(xθ)的期望
.
.
决策函数就类似于机器学习中的 y ^ \hat y y^
设 δ ( x ) 是 任 意 一 个 决 策 函 数 , 如 果 存 在 一 个 决 策 函 数 δ ∗ ( x ) , 满 足 : 设\delta(x)是任意一个决策函数,如果存在一个决策函数\delta^*(x),满足: δ(x),δ(x),:
R ( θ , δ ∗ ) ≤ R ( θ , δ ) R(\theta,\delta^*) \le R(\theta,\delta) R(θ,δ)R(θ,δ)
则称 δ ∗ ( x ) \delta^*(x) δ(x)为一致最优决策函数

6.贝叶斯风险

设 R ( θ , δ ) 为 风 险 函 数 , π ( θ ) 为 θ 的 先 验 分 布 , 则 称 : 设R(\theta,\delta)为风险函数,\pi(\theta)为\theta的先验分布,则称: R(θ,δ),π(θ)θ,:
R π ( δ ) = E θ [ R ( θ , δ ) ] = ∫ R ( θ , δ ) π ( θ ) d δ R_\pi( \delta )=E_\theta[R(\theta,\delta)]=\int R(\theta,\delta) \pi(\theta)d\delta Rπ(δ)=Eθ[R(θ,δ)]=R(θ,δ)π(θ)dδ
σ ( x ) \sigma(x) σ(x)的贝叶斯风险.
如 果 δ ( x ) 是 任 意 一 个 决 策 函 数 , 如 果 存 在 一 个 决 策 函 数 δ ∗ ( x ) , 满 足 : 如果 \delta( x ) 是任意一个决策函数,如果存在一个决策函数\delta^* ( x ), 满足: δ(x),δ(x),:
R π ( δ ∗ ) ≤ R π ( δ ) R_\pi(\delta^*) \le R_\pi(\delta) Rπ(δ)Rπ(δ)
则 称 δ ∗ ( x ) 为 统 计 决 策 的 贝 叶 斯 解 . 则称\delta^*(x)为统计决策的贝叶斯解. δ(x).
统计决策的贝叶斯解就是贝叶斯风险的一致最有决策函数

7.后验风险

设 L ( θ , δ ( x ) ) 为 损 失 函 数 , π ( θ ∣ x ) 为 θ 的 后 验 分 布 , 则 称 : 设L(\theta,\delta(x))为损失函数,\pi(\theta|x)为\theta的后验分布,则称: L(θ,δ(x)),π(θx)θ,:
R ( δ ( x ) ∣ x ) = E θ ∣ x [ L ( θ , δ ( x ) ) ] = ∫ L ( θ , δ ( x ) ) π ( θ ∣ x ) d θ R(\delta(x)|x)=E_{\theta|x}[L(\theta,\delta(x))]=\int L(\theta,\delta(x))\pi(\theta|x)d\theta R(δ(x)x)=Eθx[L(θ,δ(x))]=L(θ,δ(x))π(θx)dθ
为决策函数 δ ( x ) \delta(x) δ(x)的贝叶斯后验风险.
在某个样本下,损失函数 L L L关于后验分布 π ( θ ∣ x ) \pi(\theta|x) π(θx)的期望(对 θ \theta θ求积分)
如 果 存 在 一 个 决 策 函 数 δ ∗ ( x ) , 对 任 意 的 决 策 函 数 δ ( x ) , 满 足 : 如果存在一个决策函数\delta^* ( x ), 对任意的决策函数 \delta ( x ) ,满足: δ(x),δ(x),:
R ( δ ∗ ( x ) ∣ x ) = m i n R ( δ ( x ) ∣ x ) R(\delta^*(x)|x)=minR(\delta(x)|x) R(δ(x)x)=minR(δ(x)x)
则称 δ ∗ ( x ) \delta^*(x) δ(x)为后验风险最小原则下最优贝叶斯决策函数.

8.贝叶斯先验风险

π ( θ ) 为 先 验 分 布 , 称 : \pi(\theta)为先验分布,称: π(θ),:
R ( π , δ ( x ) ) = E θ [ L ( θ , δ ( x ) ) ] = ∫ L ( θ , δ ( x ) ) π ( θ ) d θ R(\pi,\delta(x))=E_\theta[L(\theta,\delta(x))]=\int L(\theta,\delta(x))\pi(\theta)d\theta R(π,δ(x))=Eθ[L(θ,δ(x))]=L(θ,δ(x))π(θ)dθ
为 δ ( x ) 对 θ 的 贝 叶 斯 期 望 风 险 为\delta(x)对\theta的贝叶斯期望风险 δ(x)θ

E X ( R ( δ ( x ) ∣ x ) ) = ∫ R ( δ ( x ) ∣ x ) m ( x ) d x = ∫ m ( x ) d x ∫ L ( θ , δ ( x ) ) π ( θ ∣ x ) d θ = ∫ d x ∫ L ( θ , δ ( x ) ) p ( x , θ ) d θ = ∫ d x ∫ L ( θ , δ ( x ) ) π ( θ ) p ( x ∣ θ ) d θ = ∫ π ( θ ) d θ ∫ L ( θ , δ ( x ) ) p ( x ∣ θ ) d x = ∫ R ( θ , δ ) π ( θ ) d θ = E θ [ R ( θ , δ ) ] = R π ( δ ) = ∫ ∫ L ( θ , δ ( x ) ) p ( x , θ ) d x d θ ‾ \begin{aligned} E_X(R(\delta(x)|x)) &amp;=\int R(\delta(x)|x)m(x)dx\\ &amp;=\int m(x)dx\int L(\theta,\delta(x))\pi(\theta|x)d\theta\\ &amp;=\int dx \int L(\theta,\delta(x))p(x,\theta)d\theta\\ &amp;=\int dx \int L(\theta,\delta(x))\pi(\theta)p(x|\theta)d\theta\\ &amp;=\int \pi(\theta)d\theta \int L(\theta,\delta(x))p(x|\theta)dx\\ &amp;=\int R(\theta,\delta)\pi(\theta)d\theta\\ &amp;=E_\theta[R(\theta,\delta)]\\ &amp;=R_\pi(\delta)\\ &amp;=\underline{\int \int L(\theta,\delta(x))p(x,\theta)dxd\theta} \end{aligned} EX(R(δ(x)x))=R(δ(x)x)m(x)dx=m(x)dxL(θ,δ(x))π(θx)dθ=dxL(θ,δ(x))p(x,θ)dθ=dxL(θ,δ(x))π(θ)p(xθ)dθ=π(θ)dθL(θ,δ(x))p(xθ)dx=R(θ,δ)π(θ)dθ=Eθ[R(θ,δ)]=Rπ(δ)=L(θ,δ(x))p(x,θ)dxdθ

二.基本原理

1.后验风险最小原则:

在这里插入图片描述

1).平方损失下的贝叶斯估计

在这里插入图片描述
在这里插入图片描述

2).加权平方损失下的贝叶斯估计

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述

3.在绝对值损失下的贝叶斯估计

在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述

4.在线性损失下的贝叶斯估计

在这里插入图片描述
在这里插入图片描述

三.最小最大准则

定理一:

在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述
在这里插入图片描述

定理二

在这里插入图片描述
在这里插入图片描述

四.区间估计的决策

在这里插入图片描述
在这里插入图片描述在这里插入图片描述在这里插入图片描述

五.假设检验的决策

第五章:贝叶斯计算方法

一.E-M算法

在这里插入图片描述
例1
在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述
例2.
在这里插入图片描述在这里插入图片描述

二.后验分布的相和性

在这里插入图片描述在这里插入图片描述

后验分布的渐近正态性

在这里插入图片描述在这里插入图片描述

第六章:贝叶斯大样本方法

第七章:贝叶斯模型选择

在这里插入图片描述

一 正常先验下的贝叶斯因子

在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述

二 非正常先验下的贝叶斯因子

在这里插入图片描述在这里插入图片描述在这里插入图片描述

三 贝叶斯模型评价

在这里插入图片描述在这里插入图片描述在这里插入图片描述

第八章:经验贝叶斯

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值