文章目录
第一章.绪论
一、常见随机变量分布
1.二项分布:
如果随机变量的分布律为
p
(
X
=
k
)
=
C
n
k
p
k
(
1
−
p
)
n
−
k
,
(
k
=
0
,
1
,
.
.
.
,
n
)
p(X=k)=C^k_np^k(1-p)^{n-k},(k=0,1,...,n)
p(X=k)=Cnkpk(1−p)n−k,(k=0,1,...,n)
则称随机变量X服从参数为
(
n
,
p
)
(n,p)
(n,p)的二项分布
记为X~B(n,p),(其中n为自然数,0<p<1为参数)
- 1). n重伯努利实验,关心事件发生次数的分布律
- 2)
E
X
=
n
p
,
D
X
=
n
p
(
1
−
p
)
EX=np,DX = np(1-p)
EX=np,DX=np(1−p)
当n=1时,为“0-1分布”,即 B ( 1 , p ) B(1,p) B(1,p)
2.Poisson分布
如果随机变量X的分布律为
P
X
=
k
=
λ
k
k
!
e
−
λ
,
(
k
=
0
,
1
,
…
 
.
w
h
e
r
e
c
o
n
s
t
a
n
t
λ
>
0
)
P{X=k}=\frac{\lambda^k}{k!}e^{-\lambda},(k=0,1,\dots. where\ constant\ \lambda>0)
PX=k=k!λke−λ,(k=0,1,….where constant λ>0)
记为: X X X~ p ( λ ) p(\lambda) p(λ)
- 1).稀有事件,事件发生次数的分布律
- 2). E X = λ , D X = λ EX=\lambda,DX =\lambda EX=λ,DX=λ
3.几何分布
如果随机变量X的分布律为
P
(
X
=
k
)
=
(
1
−
p
)
k
−
1
p
,
(
k
=
1
,
2
,
…
 
.
w
h
e
r
e
c
o
n
s
t
r
a
n
t
p
∈
(
0
,
1
)
)
P(X=k)=(1-p)^{k-1}p,(k=1,2,\dots.\ where\ constrant\ p\in (0,1))
P(X=k)=(1−p)k−1p,(k=1,2,…. where constrant p∈(0,1))
则称随机变量X服从参数为p 的几何分布.
记为:
X
X
X~
G
(
p
)
G(p)
G(p)
- 1).独立重复试验,首次成功次数的分布律。
- 2). E X = 1 p , D X = 1 − p p 2 EX=\frac{1}{p},DX=\frac{1-p}{p^2} EX=p1,DX=p21−p
4.帕斯卡分布(负二项分布)
如果随机变量X的分布律为
P
(
X
=
k
)
=
C
k
−
1
r
−
1
(
1
−
p
)
k
−
r
p
r
)
,
(
k
=
r
,
r
+
1
,
r
+
2
,
…
,
w
h
e
r
e
c
o
n
s
t
a
n
t
p
∈
(
0
,
1
)
)
P(X=k)=C^{r-1}_{k-1}(1-p)^{k-r}p^r),(k=r,r+1,r+2,\dots,where\ constant\ p\in (0,1))
P(X=k)=Ck−1r−1(1−p)k−rpr),(k=r,r+1,r+2,…,where constant p∈(0,1))
记为:
X
X
X~
N
B
(
r
,
p
)
NB(r,p)
NB(r,p)
- 1).独立重复试验,第r此成功时实验次数的分布律
- 2).
E
X
=
r
p
,
D
X
=
r
(
1
−
p
)
p
2
EX=\frac{r}{p},DX=\frac{r(1-p)}{p^2}
EX=pr,DX=p2r(1−p)
*负二项分布可以看成是r个独立同分布的几何分布的 Y i Y_i Yi~ G ( p ) G(p) G(p)叠加,则有
E X = E ( Y 1 + Y 2 + ⋯ + Y r ) = r E ( Y i ) = r ⋅ 1 p EX = E(Y_1+Y_2+\cdots+Y_r)=rE(Y_i)=r\cdot \frac{1}{p} EX=E(Y1+Y2+⋯+Yr)=rE(Yi)=r⋅p1
D X = D ( Y 1 + Y 2 + ⋯ + Y r ) = r D ( Y i ) = r ⋅ 1 − p p 2 DX = D(Y_1+Y_2+\cdots+Y_r)=rD(Y_i)=r\cdot \frac{1-p}{p^2} DX=D(Y1+Y2+⋯+Yr)=rD(Yi)=r⋅p21−p
5.多项分布(二项分布的推广)
如果随机向量
N
=
(
N
1
,
N
2
,
⋯
 
,
N
m
)
N=(N_1,N_2,\cdots,N_m)
N=(N1,N2,⋯,Nm)的分布律为
P
(
N
1
=
r
1
,
N
2
=
r
2
,
⋯
 
,
N
m
=
r
m
)
=
n
!
r
1
!
r
2
!
⋯
r
m
!
p
1
r
1
p
2
r
2
⋯
p
m
r
m
P(N_1=r_1,N_2=r_2,\cdots,N_m=r_m)=\frac{n!}{r_1!r_2!\cdots r_m!}p^{r_1}_1p^{r_2}_2\cdots p^{r_m}_m
P(N1=r1,N2=r2,⋯,Nm=rm)=r1!r2!⋯rm!n!p1r1p2r2⋯pmrm
则称随机变量N服从参数为
p
=
(
p
1
,
⋯
 
,
p
m
)
的
多
项
分
布
p=(p_1,\cdots,p_m)的多项分布
p=(p1,⋯,pm)的多项分布.
Σ
i
=
1
m
p
i
=
1
,
Σ
i
=
1
m
r
i
=
n
\Sigma^m_{i=1}p_i=1,\Sigma^m_{i=1}r_i=n
Σi=1mpi=1,Σi=1mri=n(其中n为自然数,0<
p
i
p_i
pi<1为参数)
记作
N
N
N~
M
(
n
,
p
)
M(n,p)
M(n,p)
-1).每次试验有m个可能结果: A 1 , A 2 , … , A m A_1,A_2,\dots,A_m A1,A2,…,Am
-2).
P
(
A
k
)
=
p
k
P(A_k)=p_k
P(Ak)=pk,此实验独立重复进行n此,记
A
k
A_k
Ak发生的次数为
N
k
N_k
Nk.
N
N
N~
M
(
n
,
p
)
M(n,p)
M(n,p)可以分解成n个独立的
M
(
1
,
p
)
M(1,p)
M(1,p)之和。
6.均匀分布
若随机变量X 的密度函数为
f
(
x
)
=
{
1
b
−
a
,
if
a
≤
x
≤
b
0
,
o
t
h
e
r
s
f(x)=\begin{cases} \frac{1}{b-a}, & \text{if $a\le x\le b$} \\ 0, & others \end{cases}
f(x)={b−a1,0,if a≤x≤bothers
则称随机变量
X
X
X服从区间
[
a
,
b
]
[a,b]
[a,b]上的均匀分布.
记作X~
U
[
a
,
b
]
U[a,b]
U[a,b]
F
(
x
)
=
{
0
,
x
<
a
x
−
a
b
−
a
,
a
≤
x
≤
b
1
,
b
<
x
F(x)= \begin{cases} 0, & x<a \\ \frac{x-a}{b-a},&a\le x\le b \\ 1, & b<x \end{cases}
F(x)=⎩⎪⎨⎪⎧0,b−ax−a,1,x<aa≤x≤bb<x
几何概型
- 1). P c < X < c + l = l b − a P{c<X<c+l}=\frac{l}{b-a} Pc<X<c+l=b−al
- 2)l. E X = 1 b − a , D X = ( b − a ) 2 12 EX=\frac{1}{b-a},DX=\frac{(b-a)^2}{12} EX=b−a1,DX=12(b−a)2
7.指数分布
X
X
X~
e
(
λ
)
e(\lambda)
e(λ)
定义:如果随机变量X 的密度函数为
f
(
x
)
=
λ
e
−
λ
x
I
{
x
>
0
}
f(x)=\lambda e^{-\lambda x}I\{x>0\}
f(x)=λe−λxI{x>0}
其中
λ
>
0
\lambda>0
λ>0为常数,则称随机变量X服从参数为
λ
\lambda
λ的指数分布.
- 1). F ( x ) = 1 − e − λ x I { x > 0 } F(x)=1-e^{-\lambda x}I\{x>0\} F(x)=1−e−λxI{x>0}
- 2). P ( X > x ) = 1 − F ( x ) = e − λ x P(X>x)=1-F(x)=e^{-\lambda x} P(X>x)=1−F(x)=e−λx
- 3). E X = 1 λ , D X = 1 λ 2 EX=\frac{1}{\lambda},DX=\frac{1}{\lambda^2} EX=λ1,DX=λ21
8.正态分布
如果连续型随机变量的密度函数为
f
(
x
)
=
1
2
π
σ
e
−
(
x
−
μ
)
2
2
σ
2
f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2 \sigma^2}}
f(x)=2πσ1e−2σ2(x−μ)2
(
w
h
e
r
e
−
∞
<
μ
<
+
∞
,
c
o
n
s
t
a
n
t
σ
>
0
(where\ -\infty \lt \mu\lt +\infty,constant\ \sigma >0
(where −∞<μ<+∞,constant σ>0)
9.柯西分布
如果连续型随机变量的密度函数为
f
(
x
)
=
1
β
π
1
1
+
(
x
−
α
β
)
2
,
x
∈
R
f(x)=\frac{1}{\beta \pi}\frac{1}{1+(\frac{x-\alpha}{\beta})^2},x\in \mathbb R
f(x)=βπ11+(βx−α)21,x∈R
则称随机变量X服从参数为
α
,
β
\alpha,\beta
α,β的柯西分布
记为:X~C
(
α
,
β
)
(\alpha,\beta)
(α,β)
- 若 α = 0 , β = 1 , 我 们 称 C ( 0 , 1 ) 为 标 准 柯 西 分 布 \alpha=0,\beta=1,我们称C(0,1)为标准柯西分布 α=0,β=1,我们称C(0,1)为标准柯西分布.
- f ( x ) = 1 π 1 1 + x 2 , x ∈ R f(x)=\frac{1}{\pi}\frac{1}{1+x^2},x\in \mathbb R f(x)=π11+x21,x∈R
- EX不存在
物理学中受迫共振的微分方程的解。
10.伽马分布
如果随机变量 X 的密度函数为
f
(
x
)
=
(
β
x
)
α
−
1
Γ
(
α
)
β
e
−
β
x
I
{
x
>
0
}
,
w
h
e
r
e
α
>
0
,
β
>
0
f(x)=\frac{(\beta x)^{\alpha-1}}{\Gamma(\alpha)}\beta e^{-\beta x}I\{ x>0\},where\ \alpha >0,\beta >0
f(x)=Γ(α)(βx)α−1βe−βxI{x>0},where α>0,β>0
则称随机变量
X
X
X服从参数为
(
α
,
β
)
(\alpha,\beta)
(α,β)的
Γ
\Gamma
Γ分布.
记为:
X
X
X~
Γ
(
α
,
β
)
\Gamma(\alpha,\beta)
Γ(α,β)
- 当 α = 1 \alpha = 1 α=1时, X X X~ e ( β ) e(\beta) e(β)
- Γ ( α ) = ∫ 0 ∞ x α − 1 e − x d x = ( α − 1 ) Γ ( α − 1 ) \Gamma(\alpha)=\int^{\infty}_0x^{\alpha-1}e^{-x}dx=(\alpha-1)\Gamma(\alpha-1) Γ(α)=∫0∞xα−1e−xdx=(α−1)Γ(α−1)
- E X = ∫ 0 ∞ ( β x ) α Γ ( α ) e − β x d x = Γ ( α + 1 ) β Γ ( α ) = α β EX=\int^{\infty}_0\frac{(\beta x)^{\alpha}}{\Gamma(\alpha)}e^{-\beta x}dx =\frac{\Gamma(\alpha+1)}{\beta\Gamma(\alpha)}=\frac{\alpha}{\beta} EX=∫0∞Γ(α)(βx)αe−βxdx=βΓ(α)Γ(α+1)=βα
- D X = E X 2 − ( E X ) 2 = α 2 + α β 2 − ( α β ) 2 = α β 2 DX=EX^2-(EX)^2=\frac{\alpha^2+\alpha}{\beta^2}-(\frac{\alpha}{\beta})^{2}=\frac{\alpha}{\beta^2} DX=EX2−(EX)2=β2α2+α−(βα)2=β2α
- 独立的指数分部之和服从伽马分布。
11.逆伽马分布
如果随机变量 X 的密度函数为
f
(
x
)
=
β
α
Γ
(
α
)
x
−
(
α
+
1
)
e
−
β
x
I
{
x
>
0
}
,
w
h
e
r
e
α
>
0
,
β
>
0
f(x)=\frac{\beta^\alpha}{\Gamma(\alpha)}x^{-(\alpha+1)}e^{-\frac{\beta}{x}}I\{x>0\},where\ \alpha>0,\beta>0
f(x)=Γ(α)βαx−(α+1)e−xβI{x>0},where α>0,β>0
则称随机变量
X
X
X服从参数为
(
α
,
β
)
(\alpha,\beta)
(α,β)的逆伽马分布.
记为:
X
X
X~
Γ
−
1
(
α
,
β
)
\Gamma^{-1}(\alpha,\beta)
Γ−1(α,β)
- 当 X X X~ Γ ( α , β ) \Gamma(\alpha,\beta) Γ(α,β)时, Y = 1 X Y=\frac{1}{X} Y=X1~ Γ − 1 ( α , β ) \Gamma^{-1}(\alpha,\beta) Γ−1(α,β)
- E X = ∫ 0 ∞ x β α Γ ( α ) x − ( α + 1 ) e β α d x = β α − 1 EX=\int^\infty_0x \frac{\beta\alpha}{\Gamma(\alpha)}x^{-(\alpha+1)}e^{\frac{\beta}{\alpha}}dx=\frac{\beta}{\alpha-1} EX=∫0∞xΓ(α)βαx−(α+1)eαβdx=α−1β
- D X = β 2 ( α − 1 ) 2 ( α − 2 ) DX=\frac{\beta^2}{(\alpha-1)^2(\alpha-2)} DX=(α−1)2(α−2)β2
通常用来描述误差分布。
12.贝塔分布
如果随机变量 X 的密度函数为
f
(
x
)
=
Γ
(
a
+
b
)
Γ
(
a
)
Γ
(
b
)
x
a
−
1
(
1
−
x
)
b
−
1
I
{
0
<
x
<
1
}
,
w
h
e
r
e
a
>
0
,
b
>
0
f(x)=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}x^{a-1}(1-x)^{b-1}I\{0\lt x \lt1\},where\ a>0,b>0
f(x)=Γ(a)Γ(b)Γ(a+b)xa−1(1−x)b−1I{0<x<1},where a>0,b>0
则称随机变量 X 服从参数为 ( a , b ) 的
β
\beta
β分布.
记为
X
X
X~
B
e
(
a
,
b
)
Be(a,b)
Be(a,b)
- 当a=1,b=1时,
X
X
X~
U
(
0
,
1
)
U(0,1)
U(0,1)
- ∫ − ∞ ∞ f ( x ) d x = 1 \int^\infty_{-\infty}f(x)dx=1 ∫−∞∞f(x)dx=1, ∫ 0 1 x a − 1 ( 1 − x ) b − 1 d x = Γ ( a ) Γ ( b ) Γ ( a + b ) = β ( a , b ) \int^1_0x^{a-1}(1-x)^{b-1}dx=\frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)}=\beta(a,b) ∫01xa−1(1−x)b−1dx=Γ(a+b)Γ(a)Γ(b)=β(a,b)
- E X = ∫ 0 ∞ Γ ( a + b ) Γ ( a ) + Γ ( b ) x a ( 1 − x ) b − 1 d x = Γ ( a + b ) Γ ( a ) Γ ( b ) Γ ( a + 1 ) Γ ( b ) Γ ( a + b + 1 ) = a a + b EX=\int^\infty_0 \frac{\Gamma(a+b)}{\Gamma(a)+\Gamma(b)}x^a(1-x)^{b-1}dx=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\frac{\Gamma(a+1)\Gamma(b)}{\Gamma(a+b+1)}=\frac{a}{a+b} EX=∫0∞Γ(a)+Γ(b)Γ(a+b)xa(1−x)b−1dx=Γ(a)Γ(b)Γ(a+b)Γ(a+b+1)Γ(a+1)Γ(b)=a+ba
- D X = a b ( a + b ) 2 ( a + b + 1 ) DX=\frac{ab}{(a+b)^2(a+b+1)} DX=(a+b)2(a+b+1)ab
- beta分布可以看作一个概率的概率分布.
- 若 X X X ~ Γ ( α , θ ) \Gamma(\alpha,\theta) Γ(α,θ), Y Y Y ~ Γ ( β , θ ) \Gamma(\beta,\theta) Γ(β,θ)独立,则 X X + Y \frac{X}{X+Y} X+YX ~ B e ( α , β ) Be(\alpha,\beta) Be(α,β)
13.狄里克莱分布(贝塔分布的多维形式)
P
(
x
1
,
x
2
,
…
,
x
k
)
=
Γ
(
α
1
+
α
2
+
⋯
+
α
k
)
Γ
(
α
1
)
Γ
(
α
2
)
…
Γ
(
α
k
)
x
1
α
1
−
1
x
2
α
2
−
1
⋯
x
k
α
k
−
1
,
∑
i
=
1
k
x
i
=
1
P(x_1,x_2,\dots,x_k)=\frac{\Gamma(\alpha_1+\alpha_2+\dots+\alpha_k)}{\Gamma(\alpha_1)\Gamma(\alpha_2)\dots\Gamma(\alpha_k)}x^{\alpha_1-1}_1x^{\alpha_2-1}_2 \cdots x^{\alpha_k-1}_k,\sum^k_{i=1}x_i=1
P(x1,x2,…,xk)=Γ(α1)Γ(α2)…Γ(αk)Γ(α1+α2+⋯+αk)x1α1−1x2α2−1⋯xkαk−1,i=1∑kxi=1
则称随机变量
X
X
X 服从参数为
α
=
(
α
1
,
⋯
 
,
α
k
)
(
α
i
>
0
)
\alpha=(\alpha_1,\cdots,\alpha_k)(\alpha_i>0)
α=(α1,⋯,αk)(αi>0) 的狄里克莱分布 .
记为
X
X
X ~
D
(
k
,
α
)
D(k,\alpha)
D(k,α)
- 当k=2时,狄里克莱分布为贝塔分布
- 可以描述一个多维概率的概率分布.
- ∫ ⋯ ∫ x 1 α 1 − 1 x 2 α 2 − 1 ⋯ x k α k − 1 d x 1 ⋯ d x k = Γ ( α 1 ) Γ ( α 2 ) … Γ ( α k ) Γ ( α 1 + α 2 + ⋯ + α k ) \int \cdots\int x_1^{\alpha_1-1}x_2^{\alpha_2-1}\cdots x_k^{\alpha_k-1}dx_1 \cdots dx_k=\frac{\Gamma(\alpha_1)\Gamma(\alpha_2)\dots\Gamma(\alpha_k)}{\Gamma(\alpha_1+\alpha_2+\dots+\alpha_k)} ∫⋯∫x1α1−1x2α2−1⋯xkαk−1dx1⋯dxk=Γ(α1+α2+⋯+αk)Γ(α1)Γ(α2)…Γ(αk)
- E X i = Γ ( α 1 + α 2 + ⋯ + α k ) Γ ( α 1 ) Γ ( α 2 ) … Γ ( α k ) Γ ( α 1 ) Γ ( α 2 ) ⋯ Γ ( α i + 1 ) ⋯ Γ ( α k ) Γ ( α 1 + α 2 + ⋯ + α k + 1 ) = α i α 1 + α 2 + ⋯ + α k EX_i=\frac{\Gamma(\alpha_1+\alpha_2+\dots+\alpha_k)}{\Gamma(\alpha_1)\Gamma(\alpha_2)\dots\Gamma(\alpha_k)} \frac{\Gamma(\alpha_1)\Gamma(\alpha_2)\cdots \Gamma(\alpha_i +1) \cdots \Gamma(\alpha_k)}{\Gamma(\alpha_1+\alpha_2+\dots+\alpha_k+1)} =\frac{\alpha_i}{\alpha_1+\alpha_2+\dots+\alpha_k} EXi=Γ(α1)Γ(α2)…Γ(αk)Γ(α1+α2+⋯+αk)Γ(α1+α2+⋯+αk+1)Γ(α1)Γ(α2)⋯Γ(αi+1)⋯Γ(αk)=α1+α2+⋯+αkαi
- D X i = Γ ( α 1 ) Γ ( α 2 ) ⋯ Γ ( α i + 2 ) ⋯ Γ ( α k ) Γ ( α 1 + α 2 + ⋯ + α k + 2 ) − ( α i α 1 + α 2 + ⋯ + α k ) 2 = α i ( α i + 1 ) ( α 1 + α 2 + ⋯ + α k + 1 ) ( α 1 + α 2 + ⋯ + α k ) − ( α i α 1 + α 2 + ⋯ + α k ) 2 DX_i = \frac{\Gamma(\alpha_1)\Gamma(\alpha_2)\cdots \Gamma(\alpha_i +2) \cdots \Gamma(\alpha_k)}{\Gamma(\alpha_1+\alpha_2+\dots+\alpha_k+2)}-(\frac{\alpha_i}{\alpha_1+\alpha_2+\dots+\alpha_k})^2 =\frac{\alpha_i(\alpha_i+1)}{(\alpha_1+\alpha_2+\dots+\alpha_k+1) (\alpha_1+\alpha_2+\dots+\alpha_k)}-(\frac{\alpha_i}{ \alpha_1+\alpha_2+\dots+\alpha_k })^2 DXi=Γ(α1+α2+⋯+αk+2)Γ(α1)Γ(α2)⋯Γ(αi+2)⋯Γ(αk)−(α1+α2+⋯+αkαi)2=(α1+α2+⋯+αk+1)(α1+α2+⋯+αk)αi(αi+1)−(α1+α2+⋯+αkαi)2
14.帕累托分布
如果随机变量 X 的密度函数为
f
(
x
)
=
α
C
α
x
α
+
1
I
{
x
>
C
}
,
w
h
e
r
e
C
>
0
,
α
>
0
f(x)=\frac{\alpha C^\alpha}{x^{\alpha+1}}I\{x>C\},where\ C>0,\alpha>0
f(x)=xα+1αCαI{x>C},where C>0,α>0
则称随机变量 X 服从参数为
(
C
,
α
)
( C , \alpha )
(C,α) 的 帕雷托 分布.
记为
X
X
X ~
P
a
(
C
,
α
)
Pa(C,\alpha)
Pa(C,α)
- 经济问题 :贫与富的存在
- 通过市场交易,20%的人将占有80%的社会财富,如果交易可以不断进行下去,那么,在因和果、努力和收获之间,普遍存在着不平衡关系.
二. 联合分布,边缘分布,条件分布
1.已知边缘分布和条件分布
设随机向量 X 的概率分布为
P
X
(
x
)
P_X(x)
PX(x),Y 在 X 下的条件分布
为
P
Y
∣
X
(
y
∣
x
)
P_{Y|X}(y|x)
PY∣X(y∣x),则
联合分布:
f
(
x
,
y
)
=
f
x
(
x
)
f
Y
∣
X
(
y
∣
X
)
,
(
X
连
续
型
,
Y
连
续
型
)
f(x,y) = f_x(x)f_{Y|X}(y|X),( X 连续型 , Y 连续型 )
f(x,y)=fx(x)fY∣X(y∣X),(X连续型,Y连续型)
P ( x i , y i ) = P X ( x i ) P Y ∣ X ( y i ∣ x i ) , ( X 离 散 型 , Y 离 散 型 ) P(x_i,y_i)=P_X(x_i)P_{Y|X}(y_i|x_i),( X 离散型 , Y 离散型 ) P(xi,yi)=PX(xi)PY∣X(yi∣xi),(X离散型,Y离散型)
P ( x i , y i ) = P X ( x i ) f Y ∣ X ( y ∣ x i ) , ( Y 连 续 型 , X 离 散 型 ) P(x_i,y_i)=P_X(x_i)f_{Y|X}(y|x_i),(Y连续型,X离散型) P(xi,yi)=PX(xi)fY∣X(y∣xi),(Y连续型,X离散型)
P ( x i , y i ) = f X ( x ) P Y ∣ X ( y i ∣ x ) , ( X 连 续 型 , Y 离 散 型 ) P(x_i,y_i)=f_X(x)P_{Y|X}(y_i|x),(X连续型,Y离散型) P(xi,yi)=fX(x)PY∣X(yi∣x),(X连续型,Y离散型)
2.已知联合分布
设随机向量 ( X , Y ) 的联合分布为 P ( x , y ), 则
- 边缘分布:
P X ( x ) = ∫ − ∞ ∞ p ( x , y ) d y , ( Y 连 续 型 ) P_X(x)=\int^\infty_{-\infty}p(x,y)dy,(Y连续型) PX(x)=∫−∞∞p(x,y)dy,(Y连续型)
P X ( x ) = ∑ i p ( x , y i ) , ( Y 离 散 型 ) P_X(x)=\sum_ip(x,y_i),(Y离散型) PX(x)=i∑p(x,yi),(Y离散型)
- 条件分布:
P Y ∣ X ( y ∣ x ) = p ( x , y ) p X ( x ) , ( Y 连 续 型 ) P_{Y|X}(y|x)=\frac{p(x,y)}{p_X(x)},(Y连续型) PY∣X(y∣x)=pX(x)p(x,y),(Y连续型)
P Y ∣ X ( y i ∣ x ) = p ( x , y i ) p X ( x ) , ( Y 离 散 型 ) P_{Y|X}(y_i|x) =\frac{p(x,y_i)}{p_X(x)},(Y离散型) PY∣X(yi∣x)=pX(x)p(x,yi),(Y离散型)
三.基本概念
1.指数族:
p
(
x
,
θ
)
=
C
(
θ
)
e
x
p
{
∑
i
=
1
k
θ
i
T
i
(
x
)
}
h
(
x
)
p(x,\theta)=C(\theta)exp\{\sum^k_{i=1}\theta_iT_i(x)\}h(x)
p(x,θ)=C(θ)exp{i=1∑kθiTi(x)}h(x)
标准形式:
见<<高等数理统计shaojun>>
2.充分统计量:
有分布族
{
p
(
x
,
θ
)
,
θ
∈
Θ
}
\{p(x,\theta),\theta\in \Theta \}
{p(x,θ),θ∈Θ},
若在已知统计量 T 的条件下 , 样本 X 的条件分布与
θ
\theta
θ 无关,则称 T 为参数
θ
\theta
θ 的充分统计量.
3.因子分解定理:
有分布族
{
p
(
x
,
θ
)
,
θ
∈
Θ
}
\{p(x,\theta),\theta\in \Theta \}
{p(x,θ),θ∈Θ}, 以及统计量:T=T(x)
若
p
(
x
,
θ
)
p ( x , \theta )
p(x,θ) 能够分解成
p
(
x
,
θ
)
=
g
(
T
(
x
)
,
θ
)
h
(
x
)
p ( x , \theta ) = g ( T ( x ), \theta ) h ( x )
p(x,θ)=g(T(x),θ)h(x)
则 T 为参数
θ
\theta
θ 的充分统计量。
4.完备统计量:
有分布族
{
p
(
x
,
θ
)
,
θ
∈
Θ
}
\{p(x,\theta),\theta\in \Theta \}
{p(x,θ),θ∈Θ}, 以及统计量:T=T(x),
若对
∀
φ
(
T
(
x
)
)
\forall \varphi(\ T(x)\ )
∀φ( T(x) )满足,
E
θ
(
φ
(
(
T
(
x
)
)
=
0
E_\theta (\varphi(\ (T(x)\ )=0
Eθ(φ( (T(x) )=0,都有
P
θ
(
φ
(
T
(
X
)
)
=
0
)
=
1
P_\theta (\varphi (T(X))=0)=1
Pθ(φ(T(X))=0)=1
5.完全统计量判定:
若样本
X
=
(
X
1
,
X
2
,
⋯
 
,
X
n
)
X = ( X_1 , X_2 ,\cdots , X_n )
X=(X1,X2,⋯,Xn) 的分布族:
{
p
(
x
,
θ
)
,
θ
∈
Θ
}
\{p(x,\theta),\theta\in \Theta \}
{p(x,θ),θ∈Θ},
P
(
x
,
θ
)
=
C
(
θ
)
e
x
p
{
∑
i
=
1
k
θ
i
T
i
(
x
)
}
h
(
x
)
P(x,\theta)=C(\theta)exp\{ \sum^k_{i=1}\theta_iT_i(x) \}h(x)
P(x,θ)=C(θ)exp{i=1∑kθiTi(x)}h(x)
统计量:
T
=
(
T
1
(
x
)
,
T
2
(
x
)
,
⋯
 
,
T
k
(
x
)
)
T=(\ T_1(x),T_2(x),\cdots,T_k(x) \ )
T=( T1(x),T2(x),⋯,Tk(x) ), 且参数空间
Θ
\Theta
Θ有内点,则T为参数
θ
\theta
θ的完全统计量
看<<高等数理统计 shaojun>><<参数统计教程韦博成>>
6.UMVUE:
样本
X
=
(
X
1
,
X
2
,
⋯
 
,
X
n
)
X=(X_1,X_2,\cdots,X_n)
X=(X1,X2,⋯,Xn),
分布族:
{
p
(
x
,
θ
)
,
θ
∈
Θ
}
\{p(x,\theta),\theta\in \Theta \}
{p(x,θ),θ∈Θ},
可估函数:
g
(
θ
)
g(\theta)
g(θ),
设
g
^
∗
(
X
)
\hat g^*(X)
g^∗(X)是
g
(
θ
)
g(\theta)
g(θ)的一个无偏估计量,若对
g
(
θ
)
g(\theta)
g(θ)的任意无偏估计
g
^
(
X
)
\hat g(X)
g^(X)都有:
D
g
^
∗
(
X
)
≤
D
g
^
(
X
)
D \hat g^*(X) \le D \hat g(X)
Dg^∗(X)≤Dg^(X)
则称
g
^
∗
(
X
)
是
g
(
θ
)
的
U
M
V
U
E
\hat g^*(X)是g(\theta)的UMVUE
g^∗(X)是g(θ)的UMVUE
7.L-S定理:
样本
X
=
(
X
1
,
X
2
,
⋯
 
,
X
n
)
X=(X_1,X_2,\cdots,X_n)
X=(X1,X2,⋯,Xn),
分布族:
{
p
(
x
,
θ
)
,
θ
∈
Θ
}
\{p(x,\theta),\theta\in \Theta \}
{p(x,θ),θ∈Θ},
可估函数:
g
(
θ
)
g(\theta)
g(θ),
统计量 T (X ) 是一个充分完备统计量.
g
^
(
T
(
X
)
)
\hat g( T ( X ))
g^(T(X))是 g ( \theta ) 的 一个无偏估计量,
则
g
^
(
T
(
X
)
)
\hat g(T(X))
g^(T(X)) 是
g
(
θ
)
g(\theta)
g(θ)唯一的UMVUE
8.C-R不等式:
样本
X
=
(
X
1
,
X
2
,
⋯
 
,
X
n
)
X=(X_1,X_2,\cdots,X_n)
X=(X1,X2,⋯,Xn),
分布族:
{
p
(
x
,
θ
)
,
θ
∈
Θ
}
\{p(x,\theta),\theta\in \Theta \}
{p(x,θ),θ∈Θ},
可估函数:
g
(
θ
)
g(\theta)
g(θ),
g
^
(
T
(
X
)
)
\hat g( T ( X ))
g^(T(X))是
g
(
θ
)
g ( \theta )
g(θ) 的 一个无偏估计量,
假设 p(x,
θ
\theta
θ)满足正则性条件:
- 1). { x ∣ p ( x , θ ) > 0 } 与 θ 无 关 \{ x|p(x,\theta)>0 \}与\theta无关 {x∣p(x,θ)>0}与θ无关
- 2). p ( x , θ ) 关 于 θ 可 导 p(x,\theta)关于\theta可导 p(x,θ)关于θ可导
- 3).
有
关
p
(
x
,
θ
)
关
于
θ
求
导
和
积
分
可
换
序
有关p(x,\theta)关于\theta求导和积分可换序
有关p(x,θ)关于θ求导和积分可换序
则有 V a r θ ( g ^ ( X ) ) ≥ ( g ‘ ( θ ) ) 2 n I ( θ ) ( = ( g ‘ ( θ ) I − 1 ( θ ) ( g ‘ ( θ ) T n ) Var_\theta (\hat g(X)) \ge \frac{(g`(\theta))^2}{nI(\theta)}\left( =\frac{(g`(\theta)I^{-1}(\theta)(g`(\theta)^T}{n} \right) Varθ(g^(X))≥nI(θ)(g‘(θ))2(=n(g‘(θ)I−1(θ)(g‘(θ)T)
称 I ( θ ) = E ( ∂ l n p ( x , θ ) ∂ θ ) 2 I(\theta)=E(\frac{\partial lnp(x,\theta)}{\partial \theta})^2 I(θ)=E(∂θ∂lnp(x,θ))2为参数 θ \theta θ的信息量
如果 D T = ( g ‘ ( θ ) ) 2 n I ( θ ) , ( 当 q ( θ ) = θ 时 , D T = 1 n I ( θ ) ) 则 称 T ( X 1 , X 2 , ⋯   , X n ) 为 g ( θ ) 的 有 效 估 计 量 DT=\frac{(g`(\theta))^2}{nI(\theta)},(当q(\theta)=\theta时,DT=\frac{1}{nI(\theta)})则称T(X_1,X_2,\cdots,X_n)为g(\theta)的有效估计量 DT=nI(θ)(g‘(θ))2,(当q(θ)=θ时,DT=nI(θ)1)则称T(X1,X2,⋯,Xn)为g(θ)的有效估计量]
9.N-P引理
10.N-P引理推广
第二章.先验分布的选取
一.古典学派和贝叶斯学派
-
古典统计学派: 坚持概率的频率解释, 把未知参数看成一个固定的未知量!
统计推断的信息量: 总体信息和样本信息
缺点: 需要大量重复试验 -
贝叶斯学派: 坚持先给定先验概率, 把未知参数用一个概率分布描述!
统计推断的信息量: 总体信息,样本信息及先验信息
缺点: 先验信息主观性比较强
二.贝叶斯统计的基本概念
设总体 X 的概率函数为
p
(
x
∣
θ
)
p ( x | \theta )
p(x∣θ)( 分布律或密度函数 ) ,
样本:
X
1
,
X
2
,
.
.
.
,
X
n
,
θ
X_1 , X_2 ,..., X_n ,\ \theta
X1,X2,...,Xn, θ 是未知参数。
1).参数的先验分布: π ( θ ) \pi (\theta) π(θ)
-
θ
\theta
θ 是离散型随机变量时:
π ( θ i ) = P ( θ = θ i ) \pi(\theta_i)=P(\theta=\theta_i) π(θi)=P(θ=θi) -
θ
\theta
θ 是连续型随机变量时:
π ( θ ) 表 示 参 数 θ 概 率 密 度 函 数 \pi(\theta)表示参数\theta 概率密度函数 π(θ)表示参数θ概率密度函数
2).参数的后验分布: π ( θ ∣ x 1 , x 2 , ⋯   , x n ) \pi(\theta|x_1,x_2,\cdots, x_n) π(θ∣x1,x2,⋯,xn)
在给定
X
1
=
x
1
,
⋯
 
,
X
n
=
x
n
X_1=x_1,\cdots,X_n=x_n
X1=x1,⋯,Xn=xn条件下,
θ
的
条
件
分
布
π
(
θ
∣
x
1
,
x
2
,
⋯
 
,
x
n
)
\theta的条件分布\pi(\theta|x_1,x_2,\cdots, x_n)
θ的条件分布π(θ∣x1,x2,⋯,xn)
三.后验分布的计算
- 样本的条件分布为:
p ( x 1 , x 2 , ⋯   , x n ∣ θ ) = ∏ i = 1 n p ( x i ∣ θ ) p(x_1,x_2,\cdots,x_n|\theta)=\prod^n_{i=1}p(x_i|\theta) p(x1,x2,⋯,xn∣θ)=i=1∏np(xi∣θ)
- 样本与参数的联合分布为:
h ( x 1 , x 2 , ⋯   , x n , θ ) = π ( θ ) p ( x 1 , x 2 , ⋯   , x n ∣ θ ) h( x_1 , x_2 , \cdots, x_n , \theta ) =\pi ( \theta ) p ( x_1 , x_2 , \cdots, x_n | \theta ) h(x1,x2,⋯,xn,θ)=π(θ)p(x1,x2,⋯,xn∣θ)
- 样本边缘分布为:
m
(
x
1
,
x
2
,
⋯
 
,
x
n
)
=
∫
Θ
h
(
x
1
,
x
2
,
⋯
 
,
x
n
,
θ
)
d
θ
m(x_1,x_2,\cdots,x_n)=\int_\Theta h(x_1,x_2,\cdots,x_n,\theta)d\theta
m(x1,x2,⋯,xn)=∫Θh(x1,x2,⋯,xn,θ)dθ
则有后验分布:
1).连续型
π
(
θ
∣
x
1
,
x
2
,
⋯
 
,
x
n
)
=
h
(
x
1
,
x
2
,
⋯
 
,
x
n
∣
θ
)
m
(
x
1
,
x
2
,
⋯
 
,
x
n
)
=
π
(
θ
)
p
(
x
1
,
x
2
,
⋯
 
,
x
n
∣
θ
)
∫
Θ
π
(
θ
)
p
(
x
1
,
x
2
,
⋯
 
,
x
n
∣
θ
)
d
θ
\pi(\theta|x_1,x_2,\cdots,x_n)=\frac{h(x_1,x_2,\cdots,x_n|\theta)}{m(x_1,x_2,\cdots,x_n)} \\ =\frac{\pi(\theta)p(x_1,x_2,\cdots,x_n|\theta)}{\int_\Theta \pi(\theta)p(x_1,x_2,\cdots,x_n|\theta)d\theta}
π(θ∣x1,x2,⋯,xn)=m(x1,x2,⋯,xn)h(x1,x2,⋯,xn∣θ)=∫Θπ(θ)p(x1,x2,⋯,xn∣θ)dθπ(θ)p(x1,x2,⋯,xn∣θ)
2).离散型
π
(
θ
∣
x
1
,
x
2
,
⋯
 
,
x
n
)
=
π
(
θ
k
)
p
(
x
1
,
x
2
,
⋯
 
,
x
n
∣
θ
k
)
∑
i
π
(
θ
i
)
p
(
x
1
,
x
2
,
⋯
 
,
x
n
∣
θ
i
)
\pi(\theta|x_1,x_2,\cdots,x_n)=\frac{\pi(\theta_k)p(x_1,x_2,\cdots,x_n|\theta_k)}{\sum_i\pi(\theta_i)p(x_1,x_2,\cdots,x_n|\theta_i)}
π(θ∣x1,x2,⋯,xn)=∑iπ(θi)p(x1,x2,⋯,xn∣θi)π(θk)p(x1,x2,⋯,xn∣θk)
四.先验分布函数形式的确定
1.专家意见
2.历史资料
3.相对似然法
4.直方图法
5.定分度法和变分度法
6.样本边缘分布最大似然先验
- 例题1
X X X~ e ( θ ) e(\theta) e(θ) 样本 X 1 , X 2 , ⋯   , X n , θ X_1,X_2,\cdots,X_n, \theta X1,X2,⋯,Xn,θ~ e ( λ ) e(\lambda) e(λ)
解:
π ( θ ) = λ e − λ θ \pi (\theta)=\lambda e^{-\lambda \theta} π(θ)=λe−λθ
p ( x 1 , ⋯   , x n ∣ θ ) = θ − n e − θ ∑ i = 1 n x i p(x_1,\cdots,x_n|\theta)=\theta^{-n}e^{-\theta \sum^n_{i=1}x_i} p(x1,⋯,xn∣θ)=θ−ne−θ∑i=1nxi
p ( x 1 , ⋯   , x n , θ ∣ λ ) = λ θ n e − θ ( λ + ∑ i = 1 n x i ) p(x_1,\cdots,x_n,\theta|\lambda)=\lambda \theta^n e^{-\theta (\lambda+\sum^n_{i=1}x_i)} p(x1,⋯,xn,θ∣λ)=λθne−θ(λ+∑i=1nxi)
p ( x 1 , ⋯   , x n ∣ λ ) = ∫ p ( x 1 , ⋯   , x n ) p ( θ ) d θ = ∫ λ θ n e x p ( − θ ( λ + ∑ i = 1 n x i ) ) d θ = λ n ! ( λ + ∑ i = 1 n x i ) n + 1 p(x_1,\cdots,x_n|\lambda)=\int p(x_1,\cdots,x_n)p(\theta)d\theta=\int \lambda\theta^n exp(-\theta (\lambda + \sum^n_{i=1}x_i))d\theta \\ =\lambda \frac{n!}{(\lambda+\sum^n_{i=1}x_i)^{n+1}} p(x1,⋯,xn∣λ)=∫p(x1,⋯,xn)p(θ)dθ=∫λθnexp(−θ(λ+i=1∑nxi))dθ=λ(λ+∑i=1nxi)n+1n!
l n p ( x 1 , ⋯   , x n ∣ λ ) = l n λ + l n n ! − ( n + 1 ) l n ( λ + ∑ i = 1 n x i ) lnp(x_1,\cdots,x_n|\lambda) = ln\lambda+lnn!-(n+1)ln(\lambda+\sum^n_{i=1}x_i) lnp(x1,⋯,xn∣λ)=lnλ+lnn!−(n+1)ln(λ+i=1∑nxi)
令
d
l
n
p
(
x
1
,
⋯
 
,
x
n
∣
λ
)
d
λ
=
1
λ
−
(
n
+
1
1
λ
+
∑
i
=
1
n
x
i
)
=
0
令\frac{dlnp(x_1,\cdots,x_n|\lambda)}{d\lambda}=\frac{1}{\lambda}-(n+1\frac{1}{\lambda+\sum^n_{i=1}x_i})=0
令dλdlnp(x1,⋯,xn∣λ)=λ1−(n+1λ+∑i=1nxi1)=0
求出极大似然估计
λ
^
=
X
ˉ
\hat \lambda=\bar X
λ^=Xˉ
五.超参数的确定
若先验分布的形式确定,但分布中含有未知参数(超参数)
1.先验分布具有明确的意义或信息
例子1
θ
\theta
θ~
N
(
μ
,
σ
2
)
N(\mu,\sigma^2)
N(μ,σ2)
2.利用边缘分布确定超参数(矩估计和MLE)
已知总体X~P(x|
θ
\theta
θ) ,
θ
\theta
θ ~
π
(
θ
∣
λ
)
\pi(\theta|\lambda)
π(θ∣λ)
λ
\lambda
λ是超参数
六.无信息先验分布
1.贝叶斯假设
- 离散均匀分布: θ 可 能 取 值 有 限 , θ 1 , ⋯   , θ n , P ( θ = θ i ) = 1 n \theta可能取值有限, \theta_1,\cdots,\theta_n,P(\theta=\theta_i)=\frac{1}{n} θ可能取值有限,θ1,⋯,θn,P(θ=θi)=n1
- 有限区间上的均匀分布: θ \theta θ~ U [ a , b ] U[a,b] U[a,b]
- 广义先验分布: θ ∈ ( − ∞ , ∞ ) , θ 的 先 验 分 布 满 足 : \theta \in (-\infty,\infty),\theta的先验分布满足: θ∈(−∞,∞),θ的先验分布满足:
- 1. π ( θ ) ≥ 0 , ∫ − ∞ ∞ π ( θ ) d θ = ∞ \pi(\theta)\ge0,\int^\infty_{-\infty}\pi(\theta)d\theta=\infty π(θ)≥0,∫−∞∞π(θ)dθ=∞
- 2.
π
(
θ
∣
x
)
是
正
常
的
密
度
函
数
\pi(\theta|x)是正常的密度函数
π(θ∣x)是正常的密度函数
. 若 π ( θ ) 是 广 义 先 验 , 则 c π ( θ ) 也 是 广 义 先 验 \pi(\theta)是广义先验,则c\pi(\theta)也是广义先验 π(θ)是广义先验,则cπ(θ)也是广义先验
π ( θ ∣ x ) = h ( x , θ ) m ( x ) = p ( x ∣ θ ) π ( θ ) ∫ p ( x ∣ θ ) π ( θ ) d θ \pi(\theta|x)=\frac{h(x,\theta)}{m(x)}=\frac{p(x|\theta)\pi(\theta)}{\int p(x|\theta)\pi(\theta)d\theta} π(θ∣x)=m(x)h(x,θ)=∫p(x∣θ)π(θ)dθp(x∣θ)π(θ)
∫ π ( θ ∣ x ) d θ = 1 \int \pi(\theta|x)d\theta=1 ∫π(θ∣x)dθ=1
2. 位置参数的无信息先验
<<贝叶斯分析>>
P
49
P_{49}
P49
位置参数族:平移变换下的不变性
π
(
θ
)
=
1
\pi(\theta)=1
π(θ)=1
例1
例2
3.尺度参数的无信息先验
尺度参数族举例:
- p ( x ∣ σ ) = 1 2 π σ 2 e − x 2 2 σ 2 p(x|\sigma)=\frac{1}{\sqrt{2\pi \sigma^2}}e^{-\frac{x^2}{2\sigma^2}} p(x∣σ)=2πσ21e−2σ2x2
- p ( x ∣ β ) = 1 π β 1 1 + ( x β ) 2 p(x|\beta)=\frac{1}{\pi \beta}\frac{1}{1+(\frac{x}{\beta})^2} p(x∣β)=πβ11+(βx)21
- p ( x ∣ λ ) = 1 λ e x λ , x > 0 p(x|\lambda)=\frac{1}{\lambda}e^{\frac{x}{\lambda}},x \gt 0 p(x∣λ)=λ1eλx,x>0
尺度参数族:尺度变换下的不变性<<贝叶斯分析>> P 51 P_{51} P51
{ f ( x , θ ) → 1 θ f ( x θ ) , θ ∈ R + } \{f(x,\theta) \to \frac{1}{\theta}f(\frac{x}{\theta}), \theta \in \Bbb R^+ \} {f(x,θ)→θ1f(θx),θ∈R+}
证 π ( σ ) = 1 σ \pi(\sigma)=\frac{1}{\sigma} π(σ)=σ1:
令
Y
=
c
X
,
(
c
∈
R
+
)
Y=cX,(c \in \Bbb R^+)
Y=cX,(c∈R+)
f
Y
(
y
)
=
1
c
θ
f
(
y
c
θ
)
f_Y(y)=\frac{1}{c\theta}f(\frac{y}{c\theta})
fY(y)=cθ1f(cθy)
令
η
=
c
θ
\eta = c\theta
η=cθ
f
Y
(
y
)
=
1
η
f
(
y
η
)
f_Y(y)=\frac{1}{\eta}f(\frac{y}{\eta})
fY(y)=η1f(ηy)
σ
的
无
信
息
先
验
与
η
的
无
信
息
先
验
应
当
相
同
.
有
:
\sigma的无信息先验与\eta的无信息先验应当相同.有:
σ的无信息先验与η的无信息先验应当相同.有:
(3.1)
π
(
τ
)
=
π
∗
(
τ
)
\pi(\tau) = \pi^*(\tau)\tag{3.1}
π(τ)=π∗(τ)(3.1)
其中
π
∗
(
τ
)
为
η
\pi^*(\tau)为\eta
π∗(τ)为η的先验分布,另一方面,由变换
η
=
c
σ
,
可
知
η
\eta=c\sigma,可知\eta
η=cσ,可知η的无信息先验为:
(3.2)
π
∗
(
η
)
=
π
(
σ
)
∣
σ
=
η
c
⋅
∣
d
σ
d
η
∣
=
1
c
π
(
η
c
)
\pi^*(\eta)=\pi(\sigma)|_{\sigma=\frac{\eta}{c}}\cdot|\frac{d\sigma}{d\eta}|=\frac{1}{c}\pi(\frac{\eta}{c})\tag{3.2}
π∗(η)=π(σ)∣σ=cη⋅∣dηdσ∣=c1π(cη)(3.2)
比较(3.1)和(3.2)得:
π
(
η
)
=
π
∗
(
η
)
=
1
c
π
(
η
c
)
\pi(\eta)=\pi^*(\eta)=\frac{1}{c}\pi(\frac{\eta}{c})
π(η)=π∗(η)=c1π(cη)
取
η
=
c
,
有
:
\eta=c,有:
η=c,有:
π
(
c
)
=
1
c
π
(
1
)
\pi(c)=\frac{1}{c}\pi(1)
π(c)=c1π(1)
为方便计算, 令
π
(
1
)
=
1
\pi(1)=1
π(1)=1,由c的任意性,可得
σ
\sigma
σ的无信息先验为:
π
(
σ
)
=
1
σ
,
(
σ
>
0
)
\pi(\sigma)=\frac{1}{\sigma},(\sigma \gt 0)
π(σ)=σ1,(σ>0)
4.一般情况:Jeffreys无信息先验
π
(
θ
)
=
∣
I
(
θ
)
∣
1
/
2
\pi(\theta)=|I(\theta)|^{1/2}
π(θ)=∣I(θ)∣1/2"| |"表示行列式
七.共轭先验分布
1.共轭先验分布
设 F 表 示 θ 的 先 验 分 布 π ( θ ) 构 成 的 分 布 族 , 如 果 取 的 π ∈ F , 后 验 分 布 π ( θ ∣ x ) ∈ F , 那 么 称 F 是 一 个 共 轭 先 验 分 布 . 设\mathscr F表示\theta的先验分布\pi(\theta)构成的分布族,如果取的\pi \in \mathscr F,后验分布\pi(\theta|x)\in \mathscr F,那么称\mathscr F是一个共轭先验分布. 设F表示θ的先验分布π(θ)构成的分布族,如果取的π∈F,后验分布π(θ∣x)∈F,那么称F是一个共轭先验分布.(先验分布和后验分布同一个分布族)
- 二项分布,其参数的共轭分布族是贝塔分布.
- 方差已知的正态分布,均值的共轭分布族是正态分布族.
- 泊松分布, 参数的共轭分布族是伽马分布.
2.求共轭先验分布
-
指数分布,参数的共轭分布族是伽马分布.
-
-均值已知的正态分布, 方差的共轭分布族是逆伽马分布.
八.多层先验分布
当先验分布中的超参数无法确定时,可以对超参数再给出一个先验
分布,这个给出的第二个先验就是超先验。
设参数
θ
\theta
θ 的先验分布是
π
1
(
θ
∣
λ
)
\pi_1(\theta|\lambda)
π1(θ∣λ) ,其中
λ
\lambda
λ 是超参数给出超参数
λ
\lambda
λ的超先验分布
π
2
(
λ
)
\pi_2(\lambda)
π2(λ)则有
θ
\theta
θ 和
λ
\lambda
λ 的联合分布式是:
π
1
(
θ
∣
λ
)
π
2
(
λ
)
\pi_1(\theta|\lambda)\pi_2(\lambda)
π1(θ∣λ)π2(λ)
参数
θ
\theta
θ 的先验分布是:
π
(
θ
)
=
∫
π
1
(
θ
∣
λ
)
π
2
(
λ
)
d
λ
\pi(\theta)=\int \pi_1(\theta| \lambda)\pi_2(\lambda)d\lambda
π(θ)=∫π1(θ∣λ)π2(λ)dλ
以此类推,可以得到三层以致多层先验.
后验分布与充分性
-
定义:设总体 X 的分布函数为 F ( x , θ ) F ( x , \theta ) F(x,θ) , 样本: X 1 , X 2 , . . . , X n X_1 , X_2 ,..., X_n X1,X2,...,Xn,统计量 T ( X 1 , X 2 , . . . , X n ) T ( X_1 , X_2 ,..., X_n ) T(X1,X2,...,Xn). 若给定 T 后, X 1 , X 2 , . . . , X n X_1 , X_2 ,..., X_n X1,X2,...,Xn 的条件分布与参数 θ \theta θ 无关, 则称统计量 T ( X 1 , X 2 , . . . , X n ) T ( X_1 , X_2 ,..., X_n ) T(X1,X2,...,Xn) 为 θ \theta θ 的充分统计量.
-
因子分解定理:
T = T ( x 1 , x 2 , ⋯   , x n ) T=T(x_1,x_2,\cdots,x_n) T=T(x1,x2,⋯,xn)是一个充分统计量的充要条件是对任一的 θ \theta θ,存在两个函数 g ( t , θ ) g(t,\theta) g(t,θ)和 h ( x 1 , x 2 , ⋯   , x n ) h(x_1,x_2,\cdots,x_n) h(x1,x2,⋯,xn),有:
p ( x 1 , x 2 , ⋯   , x n , θ ) = g ( T ( x 1 , x 2 , ⋯   , x n ) , θ ) h ( x 1 , x 2 , ⋯   , x n ) p(x_1,x_2,\cdots,x_n,\theta)=g\left( T(x_1,x_2,\cdots,x_n),\theta \right)h(x_1,x_2,\cdots,x_n) p(x1,x2,⋯,xn,θ)=g(T(x1,x2,⋯,xn),θ)h(x1,x2,⋯,xn) -
后验分布引理
设 Γ \Gamma Γ 是未知参数 θ \theta θ 的先验分布类 π ( θ ) ∈ Γ \pi(\theta) \in \Gamma π(θ)∈Γ , 若 Γ \Gamma Γ 是 θ \theta θ 的充分统计量,则对 ∀ π ∈ Γ \forall \pi \in \Gamma ∀π∈Γ ,有:
π ( θ ∣ x ) = π ~ ( θ ∣ t ) \pi(\theta|x)=\tilde \pi(\theta|t) π(θ∣x)=π~(θ∣t)
证明:
设 T 的概率函数为: q ( t ∣ θ ) q(t|\theta) q(t∣θ),
由充分统计量的定义: p X ∣ T ( x ∣ t ) = p ( x ∣ θ ) q ( t ∣ θ ) = C ( x ) p_{X|T}(x|t)=\frac{p(x|\theta)}{q(t|\theta)}=C(x) pX∣T(x∣t)=q(t∣θ)p(x∣θ)=C(x)
p ( x ∣ θ ) = q ( t ∣ θ ) C ( x ) p(x|\theta)=q(t|\theta)C(x) p(x∣θ)=q(t∣θ)C(x)
由因子分解定理有: p ( x ∣ θ ) = g ( t , θ ) h ( x ) , q ( t ∣ θ ) ∝ g ( t ∣ θ ) p(x|\theta)=g(t,\theta)h(x), q(t|\theta) \propto g(t|\theta) p(x∣θ)=g(t,θ)h(x),q(t∣θ)∝g(t∣θ)
则
π
(
θ
∣
x
)
=
h
(
x
,
θ
)
m
(
x
)
=
π
(
θ
)
p
(
x
∣
θ
)
∫
π
(
θ
)
p
(
x
∣
θ
)
d
θ
=
π
(
θ
)
q
(
t
∣
θ
)
C
(
x
)
∫
π
(
θ
)
q
(
t
∣
θ
)
C
(
x
)
d
θ
=
π
(
θ
)
q
(
t
∣
θ
)
∫
π
(
θ
)
q
(
t
∣
θ
)
d
θ
=
π
~
(
θ
∣
t
)
\begin{aligned} \pi(\theta|x) & =\frac{h(x,\theta)}{m(x)}\\ & =\frac{\pi(\theta)p(x|\theta)}{\int \pi(\theta)p(x|\theta)d\theta} \\ &=\frac{\pi(\theta)q(t|\theta)C(x)}{\int \pi(\theta)q(t|\theta)C(x)d\theta} \\ & =\frac{\pi(\theta)q(t|\theta)}{\int \pi(\theta)q(t|\theta)d\theta}\\ & =\tilde \pi(\theta|t) \end{aligned}
π(θ∣x)=m(x)h(x,θ)=∫π(θ)p(x∣θ)dθπ(θ)p(x∣θ)=∫π(θ)q(t∣θ)C(x)dθπ(θ)q(t∣θ)C(x)=∫π(θ)q(t∣θ)dθπ(θ)q(t∣θ)=π~(θ∣t)
回顾充分统计量
因子分解定理
后验分布引理
设
Γ
\Gamma
Γ 是未知参数
θ
\theta
θ 的先验分布类
π
(
θ
)
∈
Γ
\pi(\theta)\in \Gamma
π(θ)∈Γ , 若 T 是
θ
\theta
θ的充分统计量,则对
∀
π
∈
Γ
\forall \pi \in \Gamma
∀π∈Γ , 有:
π
(
θ
∣
x
)
=
π
~
(
θ
∣
t
)
\pi(\theta|x)=\tilde \pi(\theta|t)
π(θ∣x)=π~(θ∣t)
证明:
设T的概率函数为
q
(
t
∣
θ
)
q(t|\theta)
q(t∣θ),
由充分统计量
p
X
∣
T
(
x
∣
t
)
=
p
(
x
∣
θ
)
q
(
t
∣
θ
)
=
C
(
x
)
p_{X|T}(x|t)=\frac{p(x|\theta)}{q(t|\theta)}=C(x)
pX∣T(x∣t)=q(t∣θ)p(x∣θ)=C(x)
由因子分解定理
p
(
x
∣
θ
)
=
g
(
t
∣
θ
)
h
(
x
)
,
q
(
t
∣
θ
)
∝
g
(
t
∣
θ
)
p(x|\theta)=g(t|\theta)h(x),q(t|\theta) \propto g(t|\theta)
p(x∣θ)=g(t∣θ)h(x),q(t∣θ)∝g(t∣θ)
p
(
x
∣
θ
)
=
q
(
t
∣
θ
)
C
(
x
)
p(x|\theta)=q(t|\theta)C(x)
p(x∣θ)=q(t∣θ)C(x)
π
(
θ
∣
x
)
=
h
(
x
,
θ
)
m
(
x
)
=
π
(
θ
)
p
(
x
∣
θ
)
∫
π
(
θ
)
p
(
x
∣
θ
)
d
θ
=
π
(
θ
)
q
(
t
∣
θ
)
C
(
x
)
∫
π
(
θ
)
q
(
t
∣
θ
)
C
(
x
)
d
θ
=
π
(
θ
)
q
(
t
∣
θ
)
∫
π
(
θ
)
q
(
t
∣
θ
)
d
θ
=
π
~
(
θ
∣
t
)
\begin{aligned} \pi(\theta|x)=\frac{h(x,\theta)}{m(x)} & =\frac{\pi(\theta)p(x|\theta)}{\int \pi(\theta)p(x|\theta)d\theta}\\ & = \frac{\pi(\theta)q(t|\theta)C(x)}{\int \pi(\theta)q(t|\theta)C(x)d\theta} \\ & = \frac{\pi(\theta)q(t|\theta)}{\int \pi (\theta) q(t|\theta )d\theta}\\ & = \tilde \pi(\theta|t) \end{aligned}
π(θ∣x)=m(x)h(x,θ)=∫π(θ)p(x∣θ)dθπ(θ)p(x∣θ)=∫π(θ)q(t∣θ)C(x)dθπ(θ)q(t∣θ)C(x)=∫π(θ)q(t∣θ)dθπ(θ)q(t∣θ)=π~(θ∣t)
Reference先验
KL散度定义:
设两个概率分布P(x),q(x),KL距离(散度)为,
K
L
(
p
(
x
)
,
q
(
x
)
)
=
∫
l
n
(
p
(
x
)
q
(
x
)
)
p
(
x
)
d
x
=
E
p
(
l
n
(
p
(
x
)
q
(
x
)
)
)
KL(p(x),q(x))=\int ln(\frac{p(x)}{q(x)})p(x)dx=E_p(ln(\frac{p(x)}{q(x)}))
KL(p(x),q(x))=∫ln(q(x)p(x))p(x)dx=Ep(ln(q(x)p(x)))
即连续型随机变量相对熵.
显然:
- 1). K L ( p ( x ) , q ( x ) ) ! = K L ( q ( x ) , p ( x ) ) KL(p(x),q(x)) \ != KL(q(x),p(x)) KL(p(x),q(x)) !=KL(q(x),p(x))
- 2). K L ( p ( x ) , q ( x ) ) ≥ 0 KL(p(x),q(x))\ge 0 KL(p(x),q(x))≥0
E
p
(
−
l
n
p
(
x
)
q
(
x
)
)
=
E
p
(
l
n
q
(
x
)
p
(
x
)
)
≤
l
n
E
p
(
q
(
x
)
p
(
x
)
)
E_p(-ln\frac{p(x)}{q(x)})=E_p(ln\frac{q(x)}{p(x)}) \le lnE_p(\frac{q(x)}{p(x)})
Ep(−lnq(x)p(x))=Ep(lnp(x)q(x))≤lnEp(p(x)q(x))
l
n
E
p
(
q
(
x
)
p
(
x
)
)
=
l
n
∫
(
q
(
x
)
p
(
x
)
)
p
(
x
)
d
x
=
0
lnE_p(\frac{q(x)}{p(x)})=ln\int(\frac{q(x)}{p(x)})p(x)dx=0
lnEp(p(x)q(x))=ln∫(p(x)q(x))p(x)dx=0
Reference先验
设
I
π
(
θ
)
(
θ
,
x
)
=
∫
X
p
(
x
)
[
∫
Θ
π
(
θ
∣
x
)
l
n
π
(
θ
∣
x
)
π
(
θ
)
d
θ
]
d
x
=
E
X
(
K
L
(
π
(
θ
,
x
)
,
π
(
θ
)
)
)
\begin{aligned} I_{\pi(\theta)}(\theta,x) & =\int_Xp(x)[\int_\Theta\pi(\theta|x)ln\frac{\pi(\theta|x)}{\pi(\theta)}d\theta]dx \\ & = E_X(KL(\pi(\theta,x),\pi(\theta))) \end{aligned}
Iπ(θ)(θ,x)=∫Xp(x)[∫Θπ(θ∣x)lnπ(θ)π(θ∣x)dθ]dx=EX(KL(π(θ,x),π(θ)))
其中p(x)为样本X的边缘分布.若
π
∗
(
θ
)
\pi^*(\theta)
π∗(θ)满足:
I
π
∗
(
θ
)
(
θ
,
x
)
=
max
π
(
θ
)
{
I
π
(
θ
)
(
θ
,
x
)
}
I_{\pi^*(\theta)}(\theta,x)=\max_{\pi(\theta)} \{ I_{\pi(\theta)}(\theta,x) \}
Iπ∗(θ)(θ,x)=π(θ)max{Iπ(θ)(θ,x)}
则称
π
∗
(
θ
)
=
a
r
g
max
π
(
θ
)
{
I
π
(
θ
)
(
θ
,
x
)
}
为
参
数
θ
的
R
e
f
e
r
e
n
c
e
先
验
\pi^*(\theta)=arg\max_{\pi(\theta)}\{ I_{\pi(\theta)}(\theta,x) \}为参数\theta的Reference先验
π∗(θ)=argmaxπ(θ){Iπ(θ)(θ,x)}为参数θ的Reference先验
积分换序:
I
π
(
θ
)
(
θ
,
x
)
=
∫
Θ
[
∫
X
p
(
x
)
π
(
θ
∣
x
)
l
n
π
(
θ
∣
x
)
π
(
θ
)
d
x
]
d
θ
=
∫
Θ
π
(
θ
)
[
∫
X
p
(
x
∣
θ
)
(
l
n
π
(
θ
∣
x
)
−
l
n
(
π
(
θ
)
)
)
d
x
]
d
θ
=
∫
Θ
π
(
θ
)
[
∫
X
p
(
x
∣
θ
)
(
l
n
π
(
θ
∣
x
)
d
x
−
∫
X
p
(
x
∣
θ
)
l
n
(
π
(
θ
)
)
d
x
]
d
θ
\begin{aligned} I_{\pi(\theta)}(\theta,x) &=\int_\Theta[\int_Xp(x)\pi(\theta|x)ln\frac{\pi(\theta|x)}{\pi(\theta)}dx]d\theta \\ &=\int_\Theta \pi(\theta)[\int_X p(x|\theta)(ln\pi(\theta|x)-ln(\pi(\theta)))dx]d\theta \\ & = \int_\Theta \pi(\theta)[\int_X p(x|\theta)(ln\pi(\theta|x)dx-\int _X p(x|\theta)ln(\pi(\theta))dx]d\theta \end{aligned}
Iπ(θ)(θ,x)=∫Θ[∫Xp(x)π(θ∣x)lnπ(θ)π(θ∣x)dx]dθ=∫Θπ(θ)[∫Xp(x∣θ)(lnπ(θ∣x)−ln(π(θ)))dx]dθ=∫Θπ(θ)[∫Xp(x∣θ)(lnπ(θ∣x)dx−∫Xp(x∣θ)ln(π(θ))dx]dθ
I
π
(
θ
)
(
θ
,
x
)
=
∫
Θ
π
(
θ
)
[
∫
X
p
(
x
∣
θ
)
(
l
n
π
(
θ
∣
x
)
d
x
⎵
−
∫
X
p
(
x
∣
θ
)
l
n
(
π
(
θ
)
)
d
x
]
d
θ
I_{\pi(\theta)}(\theta,x) = \int_\Theta \pi(\theta)[\underbrace{\int_X p(x|\theta)(ln\pi(\theta|x)dx}-\int _X p(x|\theta)ln(\pi(\theta))dx]d\theta
Iπ(θ)(θ,x)=∫Θπ(θ)[
∫Xp(x∣θ)(lnπ(θ∣x)dx−∫Xp(x∣θ)ln(π(θ))dx]dθ
令
l
n
f
n
(
θ
)
=
∫
X
p
(
x
∣
θ
)
l
n
π
(
θ
∣
x
)
d
x
lnf_n(\theta)=\int_X p(x|\theta)ln\pi(\theta|x)dx
lnfn(θ)=∫Xp(x∣θ)lnπ(θ∣x)dx
则
I
π
(
θ
)
(
θ
,
x
)
=
∫
Θ
π
(
θ
)
l
n
f
n
(
θ
)
π
(
θ
)
d
θ
I_{\pi(\theta)}(\theta,x)=\int_\Theta \pi(\theta)ln\frac{f_n(\theta)}{\pi(\theta)}d\theta
Iπ(θ)(θ,x)=∫Θπ(θ)lnπ(θ)fn(θ)dθ
π
∗
(
θ
)
=
lim
n
→
∞
f
n
(
θ
)
f
n
(
θ
0
)
\pi^*(\theta)=\lim_{n\to \infty}\frac{f_n(\theta)}{f_n(\theta_0)}
π∗(θ)=n→∞limfn(θ0)fn(θ)
其中
θ
0
\theta_0
θ0是参数空间
Θ
\Theta
Θ的一个内点.
参考<<贝叶斯分析P65>>
Reference先验计算
二维参数为例子:分布族
p
(
x
∣
θ
,
λ
)
p(x|\theta,\lambda)
p(x∣θ,λ) ,样本为
X
1
,
X
2
,
⋯
 
,
X
n
X_1,X_2,\cdots,X_n
X1,X2,⋯,Xn
参数信息阵:
I
(
θ
,
λ
)
=
[
I
11
(
θ
,
λ
)
I
12
(
θ
,
λ
)
I
21
(
θ
,
λ
)
I
22
(
θ
,
λ
)
]
I(\theta,\lambda)=\begin{bmatrix} I_{11}(\theta,\lambda) \ \ I_{12}(\theta,\lambda) \\ I_{21}(\theta, \lambda) \ \ I_{22}(\theta, \lambda) \end{bmatrix}
I(θ,λ)=[I11(θ,λ) I12(θ,λ)I21(θ,λ) I22(θ,λ)]
- 1).固定 θ \theta θ,获得先验分布: π ( λ ∣ θ ) = I 22 1 / 2 ( θ , λ ) \pi(\lambda|\theta) = I^{1/2}_{22}(\theta,\lambda) π(λ∣θ)=I221/2(θ,λ)
- 2).如果
π
(
λ
∣
θ
)
是
正
常
先
验
分
布
,
直
接
消
参
数
\pi(\lambda|\theta)是正常先验分布,直接消参数
π(λ∣θ)是正常先验分布,直接消参数:
p ( x ∣ θ ) ∫ X p ( x ∣ θ , λ ) π ( λ ∣ θ ) d λ p(x|\theta)\int_X p(x|\theta,\lambda)\pi(\lambda|\theta)d\lambda p(x∣θ)∫Xp(x∣θ,λ)π(λ∣θ)dλ - 3).根据 p ( x ∣ θ ) , 确 定 θ 的 先 验 分 布 π ( θ ) p(x|\theta),确定\theta的先验分布\pi(\theta) p(x∣θ),确定θ的先验分布π(θ)
- 4).获得联合先验分布:
π ( θ , λ ) = π ( θ ) π ( λ ∣ θ ) \pi(\theta,\lambda)=\pi(\theta)\pi(\lambda|\theta) π(θ,λ)=π(θ)π(λ∣θ)
如果 π ( λ ∣ θ ) 是 非 正 常 先 验 分 布 集 \pi(\lambda|\theta)是非正常先验分布集 π(λ∣θ)是非正常先验分布集: - (1.划分出
λ
的
逼
近
闭
参
数
空
间
\lambda的逼近闭参数空间
λ的逼近闭参数空间
Θ 1 ⊂ Θ 2 ⊂ ⋯ ⊂ Θ k ⋯   , ∪ k Θ k = Θ \Theta_1 \subset \Theta_2 \subset \cdots \subset \Theta_k \cdots, \cup_k \Theta_k = \Theta Θ1⊂Θ2⊂⋯⊂Θk⋯,∪kΘk=Θ - (2.在
Θ
上
,
确
定
π
k
(
λ
∣
θ
)
是
正
常
先
验
分
布
,
π
k
(
λ
∣
θ
)
=
A
k
(
θ
)
π
(
λ
∣
θ
)
,
A
k
(
θ
)
=
1
∫
Θ
k
π
(
λ
∣
θ
)
d
λ
\Theta上,确定\pi_k(\lambda|\theta)是正常先验分布,\pi_k(\lambda|\theta)=A_k(\theta)\pi(\lambda|\theta),A_k(\theta)=\frac{1}{\int_{\Theta_k}\pi(\lambda|\theta)d\lambda}
Θ上,确定πk(λ∣θ)是正常先验分布,πk(λ∣θ)=Ak(θ)π(λ∣θ),Ak(θ)=∫Θkπ(λ∣θ)dλ1按照前面步骤二,确定
π
k
(
θ
)
\pi_k(\theta)
πk(θ)
π k ( θ ) = e x p { 1 2 ∫ Θ k π k ( λ ∣ θ ) l n ∣ I ( λ , θ ) ∣ ∣ I 22 ( λ , θ ) ∣ d λ } \pi_k(\theta)=exp\{ \frac{1}{2} \int_{\Theta_k} \pi_k(\lambda|\theta) ln\frac{|I(\lambda,\theta)|}{|I_{22}(\lambda,\theta)|} d\lambda\} πk(θ)=exp{21∫Θkπk(λ∣θ)ln∣I22(λ,θ)∣∣I(λ,θ)∣dλ} - (3.
π
(
θ
,
λ
)
=
l
i
m
k
→
∞
A
k
(
θ
)
π
k
(
θ
)
A
k
(
θ
0
)
π
k
(
θ
0
)
π
(
θ
∣
λ
)
\pi(\theta,\lambda)=lim_{k \to \infty}\frac{A_k(\theta)\pi_k(\theta)}{A_k(\theta_0)\pi_k(\theta_0)}\pi(\theta|\lambda)
π(θ,λ)=limk→∞Ak(θ0)πk(θ0)Ak(θ)πk(θ)π(θ∣λ)
如果参数维数多于二维 ,类似二维多次循环进行
π ( θ 1 , θ 2 , ⋯   , θ k ) = π ( θ 1 ) π ( θ 2 ∣ θ 1 ) π ( θ k ∣ θ 1 , θ 2 , ⋯   , θ k − 1 ) \pi(\theta_1,\theta_2,\cdots,\theta_k)=\pi(\theta_1)\pi(\theta_2|\theta_1)\pi(\theta_k|\theta_1,\theta_2,\cdots,\theta_{k-1}) π(θ1,θ2,⋯,θk)=π(θ1)π(θ2∣θ1)π(θk∣θ1,θ2,⋯,θk−1)
最大熵先验
定义1: 设
θ
\theta
θ为离散型随机变量 , 分布律为:
p
(
θ
=
θ
i
)
=
p
i
,
i
=
1
,
2
,
⋯
p(\theta=\theta_i)=p_i,i=1,2,\cdots
p(θ=θi)=pi,i=1,2,⋯
则称
E
(
p
)
=
−
∑
i
p
i
l
n
p
i
E(p)=-\sum_ip_ilnp_i
E(p)=−∑ipilnpi
为随机变量的熵函数.
H
(
x
,
y
)
=
H
(
x
)
+
H
(
y
)
H(x,y)=H(x)+H(y)
H(x,y)=H(x)+H(y)
P
(
x
,
y
)
=
P
(
x
)
P
(
y
)
P(x,y) = P(x)P(y)
P(x,y)=P(x)P(y)
H
(
x
)
=
−
l
n
p
(
x
)
H(x)=-lnp(x)
H(x)=−lnp(x)
- 1). p → 0 或 p → 1 是 , 有 − p l n p → 0 p\to 0或p\to1是,有-plnp \to 0 p→0或p→1是,有−plnp→0
- 2). ∑ i = 1 n p i = 1 时 , 当 p 1 = p 2 = ⋯ = p n 有 − ∑ i = 1 n p i l n p i 最 大 . \sum^n_{i=1}p_i=1时,当p_1=p_2=\cdots=p_n有-\sum^n_{i=1}p_ilnp_i最大. ∑i=1npi=1时,当p1=p2=⋯=pn有−∑i=1npilnpi最大.
连续性:
E
(
π
)
=
−
∫
π
(
θ
)
l
n
π
(
θ
)
π
0
(
θ
)
d
θ
E(\pi)=-\int \pi(\theta)ln\frac{\pi(\theta)}{\pi_0(\theta)}d\theta
E(π)=−∫π(θ)lnπ0(θ)π(θ)dθ
π
0
(
θ
)
是
不
变
的
无
信
息
先
验
\pi_0(\theta)是不变的无信息先验
π0(θ)是不变的无信息先验
定理1(离散型):
设
θ
为
离
散
型
随
机
变
量
,
θ
i
,
i
=
1
,
2
,
⋯
 
,
满
足
条
件
:
设\theta为离散型随机变量, \theta_i,i=1,2,\cdots,满足条件:
设θ为离散型随机变量,θi,i=1,2,⋯,满足条件:
E
π
(
g
k
(
θ
)
)
=
∑
i
g
k
(
θ
i
)
π
(
θ
i
)
=
μ
k
,
k
=
1
,
2
,
⋯
 
,
m
E^\pi(g_k(\theta))=\sum_ig_k(\theta_i)\pi(\theta_i)=\mu_k,k=1,2,\cdots,m
Eπ(gk(θ))=i∑gk(θi)π(θi)=μk,k=1,2,⋯,m
其
中
g
k
(
⋅
)
,
μ
k
(
k
=
1
,
⋯
 
,
m
)
分
别
表
示
已
知
的
函
数
和
已
知
的
常
数
.
同
时
还
有
隐
藏
条
件
∑
i
π
(
θ
i
)
=
1.
其中g_k(\cdot),\mu_k(k=1,\cdots,m)分别表示已知的函数和已知的常数.同时还有隐藏条件\sum_i \pi(\theta_i)=1.
其中gk(⋅),μk(k=1,⋯,m)分别表示已知的函数和已知的常数.同时还有隐藏条件∑iπ(θi)=1.
则满足条件的最大熵先验为:
π
ˉ
(
θ
i
)
=
e
x
p
{
∑
k
=
1
m
λ
k
g
k
(
θ
i
)
}
∑
i
e
x
p
{
∑
k
=
1
m
λ
k
g
k
(
θ
i
)
}
\bar \pi(\theta_i)=\frac{exp\{ \sum^m_{k=1} \lambda_kg_k(\theta_i) \}}{\sum_iexp\{ \sum^m_{k=1} \lambda_k g_k(\theta_i) \}}
πˉ(θi)=∑iexp{∑k=1mλkgk(θi)}exp{∑k=1mλkgk(θi)}
其
中
λ
k
是
保
证
π
ˉ
(
θ
)
满
足
约
束
条
件
的
常
数
.
其中\lambda_k是保证\bar \pi(\theta)满足约束条件的常数.
其中λk是保证πˉ(θ)满足约束条件的常数.
定理2(连续型):
设
θ
为
连
续
型
随
机
变
量
,
θ
i
,
i
=
1
,
2
,
⋯
 
,
满
足
条
件
:
设\theta为连续型随机变量, \theta_i,i=1,2,\cdots,满足条件:
设θ为连续型随机变量,θi,i=1,2,⋯,满足条件:
E
π
(
g
k
(
θ
)
)
=
∫
i
g
k
(
θ
)
π
(
θ
)
d
θ
=
μ
k
,
k
=
1
,
2
,
⋯
 
,
m
E^\pi(g_k(\theta))=\int_i g_k(\theta)\pi(\theta)d\theta=\mu_k,k=1,2,\cdots,m
Eπ(gk(θ))=∫igk(θ)π(θ)dθ=μk,k=1,2,⋯,m
其
中
g
k
(
⋅
)
,
μ
k
(
k
=
1
,
⋯
 
,
m
)
分
别
表
示
已
知
的
函
数
和
已
知
的
常
数
.
同
时
还
有
隐
藏
条
件
∑
i
π
(
θ
i
)
=
1.
其中g_k(\cdot),\mu_k(k=1,\cdots,m)分别表示已知的函数和已知的常数.同时还有隐藏条件\sum_i \pi(\theta_i)=1.
其中gk(⋅),μk(k=1,⋯,m)分别表示已知的函数和已知的常数.同时还有隐藏条件∑iπ(θi)=1.
则满足条件的最大熵先验为:
π
ˉ
(
θ
i
)
=
π
0
(
θ
)
e
x
p
{
∑
k
=
1
m
λ
k
g
k
(
θ
)
}
∫
Θ
π
0
(
θ
)
e
x
p
{
∑
k
=
1
m
λ
k
g
k
(
θ
)
}
d
θ
\bar \pi(\theta_i)=\frac{\pi_0(\theta) exp\{ \sum^m_{k=1} \lambda_kg_k(\theta) \}}{\int_{\Theta} \pi_0(\theta)exp\{ \sum^m_{k=1} \lambda_k g_k(\theta) \}d\theta}
πˉ(θi)=∫Θπ0(θ)exp{∑k=1mλkgk(θ)}dθπ0(θ)exp{∑k=1mλkgk(θ)}
其
中
λ
k
是
保
证
π
ˉ
(
θ
)
满
足
约
束
条
件
的
常
数
.
其中\lambda_k是保证\bar \pi(\theta)满足约束条件的常数.
其中λk是保证πˉ(θ)满足约束条件的常数.
第三章:贝叶斯统计推断
点估计
已知总体X参数的后验分布: π ( θ ∣ x 1 , ⋯   , x n ) \pi(\theta|x_1,\cdots,x_n) π(θ∣x1,⋯,xn)
1).最大后验估计:
也称后验众数估计,后验极大似然估计:
π
(
θ
∣
x
1
,
x
2
,
⋯
 
,
x
n
)
\pi(\theta|x_1,x_2,\cdots,x_n)
π(θ∣x1,x2,⋯,xn)
最大值点 θ ^ M D \hat \theta_{MD} θ^MD.
即,将后验分布求其似然函数的最大值(MLE).
2).后验中位数估计: θ ^ M E \hat \theta_{ME} θ^ME
P ( θ > θ ^ ∣ x 1 , x 2 , ⋯   , x n ) = P ( θ < θ ^ ∣ x 1 , x 2 , ⋯   , x n ) P(\theta > \hat \theta|x_1,x_2,\cdots,x_n)=P(\theta<\hat \theta|x_1,x_2,\cdots,x_n) P(θ>θ^∣x1,x2,⋯,xn)=P(θ<θ^∣x1,x2,⋯,xn)
3).后验期望估计:
θ ^ = E ( θ ∣ x 1 , x 2 , ⋯   , x n ) = θ ^ E \hat \theta=E(\theta|x_1,x_2,\cdots,x_n)=\hat \theta_E θ^=E(θ∣x1,x2,⋯,xn)=θ^E
点估计的误差估计
- 后验分布: π ( θ ∣ x 1 , ⋯   , x n ) . 贝 叶 斯 估 计 : θ ^ = δ ( x 1 , ⋯   , x n ) \pi(\theta|x_1,\cdots,x_n).贝叶斯估计:\hat \theta =\delta(x_1,\cdots,x_n) π(θ∣x1,⋯,xn).贝叶斯估计:θ^=δ(x1,⋯,xn)
- 后验均方误差:
P M S E ( δ ( x ) ) = E θ ∣ x ( θ − δ ( x 1 , x 2 , ⋯   , x n ) ) 2 PMSE(\delta(x))=E_{\theta|x}(\theta-\delta(x_1,x_2,\cdots,x_n))^2 PMSE(δ(x))=Eθ∣x(θ−δ(x1,x2,⋯,xn))2
该值越小越好
当 θ ^ = θ ^ E , 即 θ ^ = E θ ∣ x ( θ ) 当\hat \theta=\hat \theta_E,即\hat \theta=E_{\theta|x}(\theta) 当θ^=θ^E,即θ^=Eθ∣x(θ)
P M S E ( θ ^ E ) = E θ ∣ x ( θ − θ ^ E ) 2 = D θ ∣ x ( θ ) = V ( x ) PMSE(\hat \theta_E)=E_{\theta|x}{(\theta-\hat \theta_E)}^2=D_{\theta|x}(\theta)=V(x) PMSE(θ^E)=Eθ∣x(θ−θ^E)2=Dθ∣x(θ)=V(x)
后验均值估计使得后验均方误差达到最小.
区间估计
已
知
θ
的
后
验
分
布
π
(
θ
∣
x
)
,
对
于
给
定
的
样
本
x
和
x
和
概
率
1
−
α
,
若
存
在
两
个
统
计
量
θ
^
1
(
x
)
,
θ
^
2
(
x
)
,
有
已知 \theta 的后验分布 \pi ( \theta | x ), 对于给定的样本x和x 和概率 1-\alpha,若存在两个统计量\hat \theta_1( x ), \hat \theta_2 ( x ) ,有
已知θ的后验分布π(θ∣x),对于给定的样本x和x和概率1−α,若存在两个统计量θ^1(x),θ^2(x),有
P
(
θ
^
1
(
x
)
)
≤
θ
≤
θ
^
2
(
x
)
∣
x
)
≥
1
−
α
P(\hat \theta_1(x)) \le \theta \le \hat \theta_2(x)|x) \ge 1-\alpha
P(θ^1(x))≤θ≤θ^2(x)∣x)≥1−α
则称置信水平为1-\alpah的可信区间:
[
θ
^
1
(
x
)
,
θ
^
2
(
x
)
]
,
[\hat \theta_1(x), \hat \theta_2(x)],
[θ^1(x),θ^2(x)],
若
P
(
θ
^
L
(
x
)
≤
θ
∣
x
)
≥
1
−
α
P(\hat\theta_L(x)\le\theta|x)\ge1-\alpha
P(θ^L(x)≤θ∣x)≥1−α:
则称置信下限为:
θ
^
L
(
x
)
\hat\theta_L(x)
θ^L(x)
若
P
(
θ
≤
θ
^
U
(
x
)
∣
x
)
≥
1
−
α
P(\theta\le\hat\theta_U(x)|x)\ge 1-\alpha
P(θ≤θ^U(x)∣x)≥1−α
则称可信上仙为:
θ
^
U
(
x
)
\hat\theta_U(x)
θ^U(x)
最大后验密度可信区间(HPD)
1.定义(最大后验密度可信集):
X~ f ( x ∣ θ ) f(x|\theta) f(x∣θ),样本: X 1 , X 2 , ⋯   , X n , θ 的 后 验 分 布 π ( θ ∣ x ) , 给 定 概 率 1 − α , ( 0 < α < 1 ) , 集 合 C 满 足 如 下 条 件 : X_1,X_2,\cdots,X_n,\theta的后验分布\pi(\theta|x),给定概率1-\alpha,(0<\alpha<1),集合C满足如下条件: X1,X2,⋯,Xn,θ的后验分布π(θ∣x),给定概率1−α,(0<α<1),集合C满足如下条件:
- P ( θ ∈ C ) = 1 − α P(\theta\in C)=1-\alpha P(θ∈C)=1−α
- 对 任 意 的 θ 1 ∈ C , θ 2 ∉ C , 总 有 π ( θ 1 ∣ x ) > π ( θ 2 ∣ x ) 则 称 C 为 θ 的 置 信 水 平 为 1 − α 最 大 后 验 密 度 可 信 集 . 对任意的\theta_1\in C,\theta_2 \notin C,总有\pi(\theta_1|x)>\pi(\theta_2|x)则称C为\theta的置信水平为1-\alpha最大后验密度可信集. 对任意的θ1∈C,θ2∈/C,总有π(θ1∣x)>π(θ2∣x)则称C为θ的置信水平为1−α最大后验密度可信集.
2.大样本方法
X~ f ( x ∣ θ ) , 样 本 : X 1 , X 2 , ⋯   , X n , θ 的 后 验 分 布 π n ( θ ∣ x ) , μ π ( x ) = E ( θ ∣ x ) , V π ( x ) , 当 n 比 较 大 时 , 近 似 的 有 : f(x|\theta),样本:X_1,X_2,\cdots,X_n,\theta的后验分布\pi_n(\theta|x),\mu^\pi(x)=E(\theta|x),V^\pi(x),当n比较大时,近似的有: f(x∣θ),样本:X1,X2,⋯,Xn,θ的后验分布πn(θ∣x),μπ(x)=E(θ∣x),Vπ(x),当n比较大时,近似的有:
- 1).
θ
−
μ
π
(
x
)
\theta-\mu^\pi(x)
θ−μπ(x)~
N
(
0
,
V
π
(
x
)
)
N(0,V^\pi(x))
N(0,Vπ(x))
→ ( θ − μ π ( x ) ) T ( V π ( x ) ) − 1 ( θ − μ π ( x ) ) \to (\theta-\mu^\pi(x))^T(V^\pi(x))^{-1}(\theta-\mu^\pi(x)) →(θ−μπ(x))T(Vπ(x))−1(θ−μπ(x))~ χ 2 ( p ) \chi^2(p) χ2(p) - 2). θ → { θ ∣ ( θ − μ π ( x ) ) T ( V π ( x ) ) − 1 ( θ − μ π ( x ) ) ≤ χ α 2 ( p ) } \theta \to \{ \theta|(\theta-\mu^\pi(x))^T(V^\pi(x))^{-1}(\theta-\mu^\pi(x)) \le \chi^2_\alpha(p) \} θ→{θ∣(θ−μπ(x))T(Vπ(x))−1(θ−μπ(x))≤χα2(p)}
预测推断
1.问题提出
-
1).X~ f ( x ∣ θ ) , 样 本 : X 1 , X 2 , ⋯   , X n , f(x|\theta),样本:X_1,X_2,\cdots,X_n, f(x∣θ),样本:X1,X2,⋯,Xn,Z~ g ( z ∣ θ ) , g(z|\theta), g(z∣θ),推断未观察值 Z 0 Z_0 Z0
Z ~ g ( z ∣ θ ) g(z|\theta) g(z∣θ)~ g ( z ∣ θ , x ) g(z|\theta,x) g(z∣θ,x) -
2). X X X~ f ( x ∣ θ ) , 样 本 : X 1 , X 2 , ⋯   , X n , 推 断 未 观 测 值 X 0 f(x|\theta), 样本:X_1,X_2,\cdots,X_n,推断未观测值X_0 f(x∣θ),样本:X1,X2,⋯,Xn,推断未观测值X0
2.定义
设X~
f
(
x
∣
θ
)
,
样
本
:
X
1
,
X
2
,
⋯
 
,
X
n
,
θ
的
先
验
分
布
π
(
θ
)
,
θ
的
后
验
分
布
π
(
θ
∣
x
)
,
Z
f(x|\theta), 样本:X_1,X_2,\cdots,X_n, \theta的先验分布\pi(\theta),\theta的后验分布\pi(\theta|x),Z
f(x∣θ),样本:X1,X2,⋯,Xn,θ的先验分布π(θ),θ的后验分布π(θ∣x),Z ~
g
(
z
∣
θ
)
,
定
义
Z
0
的
后
验
预
测
密
度
为
g(z|\theta),定义Z_0的后验预测密度为
g(z∣θ),定义Z0的后验预测密度为:
P
(
z
0
∣
x
1
,
⋯
 
,
x
n
)
=
∫
g
(
z
0
∣
θ
)
π
(
θ
∣
x
1
,
⋯
 
,
x
n
)
d
θ
P(z_0|x_1,\cdots,x_n)=\int g(z_0|\theta)\pi(\theta|x_1,\cdots,x_n)d\theta
P(z0∣x1,⋯,xn)=∫g(z0∣θ)π(θ∣x1,⋯,xn)dθ
特例情况
P
(
x
0
∣
x
1
,
⋯
 
,
x
n
)
=
∫
f
(
x
0
∣
θ
)
π
(
θ
∣
x
1
,
⋯
 
,
x
n
)
d
θ
P(x_0|x_1,\cdots,x_n)=\int f(x_0|\theta)\pi(\theta|x_1,\cdots,x_n)d\theta
P(x0∣x1,⋯,xn)=∫f(x0∣θ)π(θ∣x1,⋯,xn)dθ
Z
0
的
预
报
区
间
[
a
,
b
]
满
足
:
Z_0的预报区间[a,b]满足:
Z0的预报区间[a,b]满足:
P
(
a
≤
z
0
≤
b
∣
x
1
,
⋯
 
,
x
n
)
=
∫
a
b
p
(
z
0
∣
x
1
,
⋯
 
,
x
n
)
d
z
0
=
1
−
α
P(a\le z_0\le b|x_1,\cdots,x_n)=\int^b_a p(z_0|x_1,\cdots,x_n)dz_0=1-\alpha
P(a≤z0≤b∣x1,⋯,xn)=∫abp(z0∣x1,⋯,xn)dz0=1−α
x
0
的
预
测
区
间
[
a
,
b
]
满
足
:
x_0的预测区间[a,b]满足:
x0的预测区间[a,b]满足:
P
(
a
≤
x
0
≤
b
∣
x
1
,
⋯
 
,
x
n
)
=
∫
a
b
p
(
x
0
∣
x
1
,
⋯
 
,
x
n
)
d
z
0
=
1
−
α
P(a\le x_0\le b|x_1,\cdots,x_n)=\int^b_a p(x_0|x_1,\cdots,x_n)dz_0=1-\alpha
P(a≤x0≤b∣x1,⋯,xn)=∫abp(x0∣x1,⋯,xn)dz0=1−α
假设检验:
H
0
:
θ
∈
Θ
0
v
s
H
1
:
θ
∈
Θ
1
H_0:\theta \in \Theta_0\ \ vs\ \ H_1:\theta\in \Theta_1
H0:θ∈Θ0 vs H1:θ∈Θ1
计算后验概率:
P
(
θ
∈
Θ
0
∣
x
1
,
⋯
 
,
x
n
)
,
P
(
θ
∈
Θ
1
∣
x
1
,
⋯
 
,
x
n
)
P(\theta \in \Theta_0|x_1,\cdots,x_n),\ P(\theta\in \Theta_1|x_1,\cdots,x_n)
P(θ∈Θ0∣x1,⋯,xn), P(θ∈Θ1∣x1,⋯,xn)
若
P
(
θ
∈
Θ
0
∣
x
1
,
⋯
 
,
x
n
)
>
P
(
θ
∈
Θ
1
∣
x
1
,
⋯
 
,
x
n
)
,
接
受
H
0
P(\theta \in \Theta_0|x_1,\cdots,x_n) \gt P(\theta \in \Theta_1| x_1,\cdots,x_n),接受H_0
P(θ∈Θ0∣x1,⋯,xn)>P(θ∈Θ1∣x1,⋯,xn),接受H0
H
i
:
θ
∈
Θ
i
(
i
=
1
,
2
,
⋯
 
,
k
)
H_i:\theta \in \Theta_i(i=1,2,\cdots,k)
Hi:θ∈Θi(i=1,2,⋯,k)
α i = P ( θ ∈ Θ i ∣ x ) , 若 α l 最 大 , 则 接 受 H l \alpha_i=P(\theta \in \Theta_i|x),若\alpha_l最大,则接受H_l αi=P(θ∈Θi∣x),若αl最大,则接受Hl
贝叶斯因子
设
两
个
假
设
Θ
0
和
Θ
1
的
先
验
概
率
分
别
为
π
0
和
π
1
,
后
验
概
率
分
别
为
α
0
和
α
1
,
比
率
π
0
π
1
称
为
H
0
对
H
1
先
验
机
会
比
,
α
0
α
1
称
为
H
0
对
H
1
后
验
机
会
比
,
且
称
设两个假设\Theta_0和\Theta_1的先验概率分别为\pi_0和\pi_1,后验概率分别为\alpha_0和\alpha_1,比率\frac{\pi_0}{\pi_1}称为H_0对H_1先验机会比,\frac{\alpha_0}{\alpha_1}称为H_0对H_1后验机会比,且称
设两个假设Θ0和Θ1的先验概率分别为π0和π1,后验概率分别为α0和α1,比率π1π0称为H0对H1先验机会比,α1α0称为H0对H1后验机会比,且称
B
π
(
x
)
=
α
0
α
1
π
0
π
1
=
α
0
π
1
α
1
π
0
=
α
0
/
π
0
α
1
/
π
1
B^\pi(x)=\frac{\frac{\alpha_0}{\alpha_1}}{\frac{\pi_0}{\pi_1}}=\frac{\alpha_0\pi_1}{\alpha_1\pi_0}=\frac{\alpha_0/\pi_0}{\alpha_1/\pi_1}
Bπ(x)=π1π0α1α0=α1π0α0π1=α1/π1α0/π0
为支持
H
0
H_0
H0的贝叶斯因子.
贝
叶
斯
因
子
B
π
(
x
)
反
应
数
据
x
支
持
H
0
的
程
度
.
B
π
(
x
)
取
值
越
大
,
对
H
0
的
支
持
程
度
越
高
.
贝叶斯因子B^\pi(x)反应数据x支持H_0的程度.B^\pi(x)取值越大,对H_0的支持程度越高.
贝叶斯因子Bπ(x)反应数据x支持H0的程度.Bπ(x)取值越大,对H0的支持程度越高.
拒绝域:
α
0
α
1
<
1
\frac{\alpha_0}{\alpha_1}<1
α1α0<1等价于:
B
π
(
x
)
<
π
1
π
0
  
⟺
  
1
B
π
(
x
)
>
π
0
π
1
B^\pi(x)<\frac{\pi_1}{\pi_0} \iff \frac{1}{B^\pi(x)}>\frac{\pi_0}{\pi_1}
Bπ(x)<π0π1⟺Bπ(x)1>π1π0
简单vs简单检验
H 0 : Θ 0 = θ 0 v s H 1 : Θ 1 = θ 1 H_0:\Theta_0={\theta_0}\ \ vs \ \ H_1:\Theta_1=\theta_1 H0:Θ0=θ0 vs H1:Θ1=θ1
α 0 = P ( θ ∈ Θ 0 ∣ x ) = P ( θ 0 , x ) m ( x ) = π 0 P ( x ∣ θ 0 ) π 0 P ( x ∣ θ 0 ) + π 1 P ( x ∣ θ 1 ) \alpha_0=P(\theta \in \Theta_0|x)=\frac{P(\theta_0,x)}{m(x)}=\frac{\pi_0P(x|\theta_0)}{\pi_0P(x|\theta_0)+\pi_1P(x|\theta_1)} α0=P(θ∈Θ0∣x)=m(x)P(θ0,x)=π0P(x∣θ0)+π1P(x∣θ1)π0P(x∣θ0)
α 1 = P ( θ ∈ Θ 1 ∣ x ) = π 1 P ( x ∣ θ 1 ) π 0 P ( x ∣ θ 0 ) + π 1 P ( x ∣ θ 1 ) \alpha_1=P(\theta \in \Theta_1| x)=\frac{\pi_1P(x|\theta_1)}{\pi_0P(x|\theta_0)+\pi_1P(x|\theta_1)} α1=P(θ∈Θ1∣x)=π0P(x∣θ0)+π1P(x∣θ1)π1P(x∣θ1)
α 0 α 1 = π 0 P ( x ∣ θ 0 ) π 1 P ( x ∣ θ 1 ) \frac{\alpha_0}{\alpha_1}=\frac{\pi_0P(x|\theta_0)}{\pi_1P(x|\theta_1)} α1α0=π1P(x∣θ1)π0P(x∣θ0)
   ⟹    B π ( x ) = α 0 / α 1 π 0 / π 1 = P ( x ∣ θ 0 ) P ( x ∣ θ 1 ) \implies B^\pi(x)=\frac{\alpha_0/\alpha_1}{\pi_0/\pi_1}=\frac{P(x|\theta_0)}{P(x|\theta_1)} ⟹Bπ(x)=π0/π1α0/α1=P(x∣θ1)P(x∣θ0)
拒绝域:
α
0
α
1
<
1
\frac{\alpha_0}{\alpha_1}<1
α1α0<1等价于:
P
(
x
∣
θ
0
)
P
(
x
∣
θ
1
)
>
π
1
π
0
\frac{P(x|\theta_0)}{P(x|\theta_1)}>\frac{\pi_1}{\pi_0}
P(x∣θ1)P(x∣θ0)>π0π1
例题:
复杂-复杂检验
H 0 : Θ 0 ( 非 空 复 合 集 ) v s H 1 : Θ 1 = Θ 0 − Θ 1 ( 非 空 复 合 集 ) H_0:\Theta_0(非空复合集) \ \ vs \ \ H_1:\Theta_1=\Theta_0-\Theta_1(非空复合集) H0:Θ0(非空复合集) vs H1:Θ1=Θ0−Θ1(非空复合集)
α 0 = P ( θ ∈ Θ 0 ∣ x ) = P ( Θ 0 , x ) m ( x ) = ∫ Θ 0 π ( θ ) P ( x ∣ θ ) d θ ∫ Θ 0 π ( θ ) P ( x ∣ θ ) d θ + ∫ Θ 1 π ( θ ) P ( x ∣ θ ) d θ \alpha_0=P(\theta \in \Theta_0|x)=\frac{P(\Theta_0,x)}{m(x)}=\frac{\int_{\Theta_0} \pi(\theta)P(x|\theta)d\theta}{\int_{\Theta_0} \pi(\theta) P(x|\theta)d\theta+\int_{\Theta_1} \pi(\theta)P(x|\theta)d\theta} α0=P(θ∈Θ0∣x)=m(x)P(Θ0,x)=∫Θ0π(θ)P(x∣θ)dθ+∫Θ1π(θ)P(x∣θ)dθ∫Θ0π(θ)P(x∣θ)dθ
α 1 = P ( θ ∈ Θ 0 ∣ x ) = P ( Θ 1 , x ) m ( x ) = ∫ Θ 1 π ( θ ) P ( x ∣ θ ) d θ ∫ Θ 0 π ( θ ) P ( x ∣ θ ) d θ + ∫ Θ 1 π ( θ ) P ( x ∣ θ ) d θ \alpha_1=P(\theta \in \Theta_0|x)=\frac{P(\Theta_1,x)}{m(x)}=\frac{\int_{\Theta_1} \pi(\theta)P(x|\theta)d\theta}{\int_{\Theta_0} \pi(\theta) P(x|\theta)d\theta+\int_{\Theta_1} \pi(\theta)P(x|\theta)d\theta} α1=P(θ∈Θ0∣x)=m(x)P(Θ1,x)=∫Θ0π(θ)P(x∣θ)dθ+∫Θ1π(θ)P(x∣θ)dθ∫Θ1π(θ)P(x∣θ)dθ
则
α
0
α
1
=
∫
Θ
0
π
(
θ
)
P
(
x
∣
θ
)
d
θ
∫
Θ
1
π
(
θ
)
P
(
x
∣
θ
)
d
θ
则\frac{\alpha_0}{\alpha_1}=\frac{ \int_{\Theta_0} \pi(\theta)P(x|\theta)d\theta }{ \int_{\Theta_1} \pi(\theta)P(x|\theta)d\theta }
则α1α0=∫Θ1π(θ)P(x∣θ)dθ∫Θ0π(θ)P(x∣θ)dθ
令
π
0
=
∫
Θ
0
π
(
θ
)
d
θ
,
π
1
=
∫
Θ
1
π
(
θ
)
d
θ
令\pi_0 = \int_{\Theta_0} \pi(\theta)d\theta,\ \pi_1=\int_{\Theta_1}\pi(\theta)d\theta
令π0=∫Θ0π(θ)dθ, π1=∫Θ1π(θ)dθ
B
π
(
x
)
=
α
0
/
α
1
π
0
/
π
1
=
∫
Θ
0
π
(
θ
)
π
0
P
(
x
∣
θ
)
d
θ
∫
Θ
1
π
(
θ
)
π
1
P
(
x
∣
θ
)
d
θ
=
m
0
(
x
)
m
1
(
x
)
B^\pi(x)=\frac{\alpha_0/\alpha_1}{\pi_0/\pi_1}=\frac{ \int_{\Theta_0} \frac{\pi(\theta)}{\pi_0}P(x|\theta)d\theta }{ \int_{\Theta_1} \frac{\pi(\theta)}{\pi_1}P(x|\theta)d\theta }=\frac{m_0(x)}{m_1(x)}
Bπ(x)=π0/π1α0/α1=∫Θ1π1π(θ)P(x∣θ)dθ∫Θ0π0π(θ)P(x∣θ)dθ=m1(x)m0(x)
拒绝域:
α
0
α
1
<
1
\frac{\alpha_0}{\alpha_1}<1
α1α0<1等价于:
m
0
(
x
)
m
1
(
x
)
>
π
1
π
0
\frac{m_0(x)}{m_1(x)}>\frac{\pi_1}{\pi_0}
m1(x)m0(x)>π0π1
例题:
简单-复杂检验
第四章:贝叶斯统计决策
一.概念
1.样本空间和样本分布族
随 机 变 量 X 取 值 于 样 本 空 间 R , 分 布 族 为 p ( x ∣ θ ) , θ ∈ Θ 随机变量 X 取值于样本空间 \Bbb R ,分布族为 { p( x | \theta ), \theta \in \Theta } 随机变量X取值于样本空间R,分布族为p(x∣θ),θ∈Θ
2.决策空间: 统计决策问题可能采取的行动构成的非空集合.
定 义 在 样 本 空 间 , 取 值 于 决 策 空 间 中 函 数 δ ( x ) 称 为 决 策 函 数 定义在样本空间,取值 于决策空间中函数 \delta (x ) 称为决策函数 定义在样本空间,取值于决策空间中函数δ(x)称为决策函数
3.损失函数
定 义 在 Θ × R 的 非 负 可 测 函 数 , 记 L ( θ , δ ( x ) ) 定义在 \Theta \times \Bbb R 的非负可测函数,记L( \theta , \delta ( x )) 定义在Θ×R的非负可测函数,记L(θ,δ(x))
4.统计决策三要素
随 机 变 量 X 的 分 布 族 为 p ( x ∣ θ ) , 决 策 空 间 Θ 和 损 失 函 数 L ( θ , δ ( x ) ) . 随机变量 X 的分布族为 p ( x | \theta ) , 决策空间 \Theta 和损失函数L(\theta,\delta(x)). 随机变量X的分布族为p(x∣θ),决策空间Θ和损失函数L(θ,δ(x)).
5.风险函数
设
δ
(
x
)
\delta (x )
δ(x) 是一个决策函数,平均
损失:
R
(
θ
,
δ
)
=
E
X
∣
θ
[
L
(
θ
,
δ
(
x
)
)
]
=
∫
L
(
θ
,
δ
(
x
)
)
p
(
x
∣
θ
)
d
x
R(\theta,\delta)=E_{X|\theta}[L(\theta,\delta(x))]=\int L(\theta,\delta(x))p(x|\theta)dx
R(θ,δ)=EX∣θ[L(θ,δ(x))]=∫L(θ,δ(x))p(x∣θ)dx
为
δ
(
x
)
\delta(x)
δ(x)的风险函数.
对
每
一
个
θ
的
平
均
损
失
,
θ
的
函
数
对每一个 \theta 的平均损失, \theta 的函数
对每一个θ的平均损失,θ的函数
风险函数就是损失函数关于
p
(
x
∣
θ
)
p(x|\theta)
p(x∣θ)的期望
.
.
决策函数就类似于机器学习中的
y
^
\hat y
y^
设
δ
(
x
)
是
任
意
一
个
决
策
函
数
,
如
果
存
在
一
个
决
策
函
数
δ
∗
(
x
)
,
满
足
:
设\delta(x)是任意一个决策函数,如果存在一个决策函数\delta^*(x),满足:
设δ(x)是任意一个决策函数,如果存在一个决策函数δ∗(x),满足:
R
(
θ
,
δ
∗
)
≤
R
(
θ
,
δ
)
R(\theta,\delta^*) \le R(\theta,\delta)
R(θ,δ∗)≤R(θ,δ)
则称
δ
∗
(
x
)
\delta^*(x)
δ∗(x)为一致最优决策函数
6.贝叶斯风险
设
R
(
θ
,
δ
)
为
风
险
函
数
,
π
(
θ
)
为
θ
的
先
验
分
布
,
则
称
:
设R(\theta,\delta)为风险函数,\pi(\theta)为\theta的先验分布,则称:
设R(θ,δ)为风险函数,π(θ)为θ的先验分布,则称:
R
π
(
δ
)
=
E
θ
[
R
(
θ
,
δ
)
]
=
∫
R
(
θ
,
δ
)
π
(
θ
)
d
δ
R_\pi( \delta )=E_\theta[R(\theta,\delta)]=\int R(\theta,\delta) \pi(\theta)d\delta
Rπ(δ)=Eθ[R(θ,δ)]=∫R(θ,δ)π(θ)dδ
为
σ
(
x
)
\sigma(x)
σ(x)的贝叶斯风险.
如
果
δ
(
x
)
是
任
意
一
个
决
策
函
数
,
如
果
存
在
一
个
决
策
函
数
δ
∗
(
x
)
,
满
足
:
如果 \delta( x ) 是任意一个决策函数,如果存在一个决策函数\delta^* ( x ), 满足:
如果δ(x)是任意一个决策函数,如果存在一个决策函数δ∗(x),满足:
R
π
(
δ
∗
)
≤
R
π
(
δ
)
R_\pi(\delta^*) \le R_\pi(\delta)
Rπ(δ∗)≤Rπ(δ)
则
称
δ
∗
(
x
)
为
统
计
决
策
的
贝
叶
斯
解
.
则称\delta^*(x)为统计决策的贝叶斯解.
则称δ∗(x)为统计决策的贝叶斯解.
统计决策的贝叶斯解就是贝叶斯风险的一致最有决策函数
7.后验风险
设
L
(
θ
,
δ
(
x
)
)
为
损
失
函
数
,
π
(
θ
∣
x
)
为
θ
的
后
验
分
布
,
则
称
:
设L(\theta,\delta(x))为损失函数,\pi(\theta|x)为\theta的后验分布,则称:
设L(θ,δ(x))为损失函数,π(θ∣x)为θ的后验分布,则称:
R
(
δ
(
x
)
∣
x
)
=
E
θ
∣
x
[
L
(
θ
,
δ
(
x
)
)
]
=
∫
L
(
θ
,
δ
(
x
)
)
π
(
θ
∣
x
)
d
θ
R(\delta(x)|x)=E_{\theta|x}[L(\theta,\delta(x))]=\int L(\theta,\delta(x))\pi(\theta|x)d\theta
R(δ(x)∣x)=Eθ∣x[L(θ,δ(x))]=∫L(θ,δ(x))π(θ∣x)dθ
为决策函数
δ
(
x
)
\delta(x)
δ(x)的贝叶斯后验风险.
在某个样本下,损失函数
L
L
L关于后验分布
π
(
θ
∣
x
)
\pi(\theta|x)
π(θ∣x)的期望(对
θ
\theta
θ求积分)
如
果
存
在
一
个
决
策
函
数
δ
∗
(
x
)
,
对
任
意
的
决
策
函
数
δ
(
x
)
,
满
足
:
如果存在一个决策函数\delta^* ( x ), 对任意的决策函数 \delta ( x ) ,满足:
如果存在一个决策函数δ∗(x),对任意的决策函数δ(x),满足:
R
(
δ
∗
(
x
)
∣
x
)
=
m
i
n
R
(
δ
(
x
)
∣
x
)
R(\delta^*(x)|x)=minR(\delta(x)|x)
R(δ∗(x)∣x)=minR(δ(x)∣x)
则称
δ
∗
(
x
)
\delta^*(x)
δ∗(x)为后验风险最小原则下最优贝叶斯决策函数.
8.贝叶斯先验风险
设
π
(
θ
)
为
先
验
分
布
,
称
:
\pi(\theta)为先验分布,称:
π(θ)为先验分布,称:
R
(
π
,
δ
(
x
)
)
=
E
θ
[
L
(
θ
,
δ
(
x
)
)
]
=
∫
L
(
θ
,
δ
(
x
)
)
π
(
θ
)
d
θ
R(\pi,\delta(x))=E_\theta[L(\theta,\delta(x))]=\int L(\theta,\delta(x))\pi(\theta)d\theta
R(π,δ(x))=Eθ[L(θ,δ(x))]=∫L(θ,δ(x))π(θ)dθ
为
δ
(
x
)
对
θ
的
贝
叶
斯
期
望
风
险
为\delta(x)对\theta的贝叶斯期望风险
为δ(x)对θ的贝叶斯期望风险
E X ( R ( δ ( x ) ∣ x ) ) = ∫ R ( δ ( x ) ∣ x ) m ( x ) d x = ∫ m ( x ) d x ∫ L ( θ , δ ( x ) ) π ( θ ∣ x ) d θ = ∫ d x ∫ L ( θ , δ ( x ) ) p ( x , θ ) d θ = ∫ d x ∫ L ( θ , δ ( x ) ) π ( θ ) p ( x ∣ θ ) d θ = ∫ π ( θ ) d θ ∫ L ( θ , δ ( x ) ) p ( x ∣ θ ) d x = ∫ R ( θ , δ ) π ( θ ) d θ = E θ [ R ( θ , δ ) ] = R π ( δ ) = ∫ ∫ L ( θ , δ ( x ) ) p ( x , θ ) d x d θ ‾ \begin{aligned} E_X(R(\delta(x)|x)) &=\int R(\delta(x)|x)m(x)dx\\ &=\int m(x)dx\int L(\theta,\delta(x))\pi(\theta|x)d\theta\\ &=\int dx \int L(\theta,\delta(x))p(x,\theta)d\theta\\ &=\int dx \int L(\theta,\delta(x))\pi(\theta)p(x|\theta)d\theta\\ &=\int \pi(\theta)d\theta \int L(\theta,\delta(x))p(x|\theta)dx\\ &=\int R(\theta,\delta)\pi(\theta)d\theta\\ &=E_\theta[R(\theta,\delta)]\\ &=R_\pi(\delta)\\ &=\underline{\int \int L(\theta,\delta(x))p(x,\theta)dxd\theta} \end{aligned} EX(R(δ(x)∣x))=∫R(δ(x)∣x)m(x)dx=∫m(x)dx∫L(θ,δ(x))π(θ∣x)dθ=∫dx∫L(θ,δ(x))p(x,θ)dθ=∫dx∫L(θ,δ(x))π(θ)p(x∣θ)dθ=∫π(θ)dθ∫L(θ,δ(x))p(x∣θ)dx=∫R(θ,δ)π(θ)dθ=Eθ[R(θ,δ)]=Rπ(δ)=∫∫L(θ,δ(x))p(x,θ)dxdθ
二.基本原理
1.后验风险最小原则:
1).平方损失下的贝叶斯估计
2).加权平方损失下的贝叶斯估计
3.在绝对值损失下的贝叶斯估计
4.在线性损失下的贝叶斯估计
三.最小最大准则
定理一:
定理二
四.区间估计的决策
五.假设检验的决策
第五章:贝叶斯计算方法
一.E-M算法
例1
例2.