漫步数理统计二十八——混合分布

假设有 k 个分布,它们的pdf分别为f1(x),f2(x),,fk(x),支撑为 1,2,,k ,均值为 μ1,μ2,,μk ,方差为 σ21,σ22,,σ2k ,正的混合概率 p1,p2,,pk 且满足 p1+p2++pk=1 ,令 =ki=1i 且考虑函数

f(x)=p1f1(x)+p2f2(x)++pkfk(x)=i=1kpifi(x),x

注意 f(x) 是非负的且在 (,) 上积分为1;因此 f(x) 是某连续型随机变量 X 的pdf,X的均值为

E(X)=i=1kpixfi(x)dx=i=1kpiμi=μ¯

μ1,μ2,,μk 的加权平均,方差等于

var(X)=i=1kpi(xμ¯)2fi(x)dx=i=1kpi[(xμi)+(μiμ¯)]2fi(x)dx=i=1kpi(xμi)2fi(x)dx+i=1kpi(μiμ¯)2fi(x)dx

交叉相的积分为零。即

var(X)=i=1kpiσ2i+i=1kpi(μiμ¯)2

注意方差不单单是 k 个方差的加权平均,还包括一个正值,涉及到均值的加权方差。

1注意区分 k 个分布的混合与k个随机变量的混合 aiXi

接下来介绍一些分布。首先是参数 α>0,β>0 的对数伽玛pdf,形式为

f1(x)={1Γ(α)βαx(1+β)/β(logx)α10x>1elsewhere

logΓ(α,β) 表示该分布。

1 精算师发现对数伽玛与伽玛分布很适合为索赔分布建模。假设 X1 满足 logΓ(α1,β1) X2 满足 Γ(α2,β2) ,混合概率为 p,(1p) ,那么混合分布的pdf为

f(x)=1pβα22Γ(α2)xα21ex/β2pβα11Γ(α1)(logx)α11x(β1+1)/β1+1βα22Γ(α2)xα21ex/β200<x11<xelsewhere

假设 β1<21 ,该混合分布的均值与方差为

μσ2=p(1β1)α1+(1p)α2β2=p[(12β1)α1(1β1)2α1]+(1p)α2β22+p(1p)[(1β1)α1α2β2]2

混合分布有时候也成为复合。进一步我们没必要限制在有限多个分布。如下面的例子所示,连续的加权函数可以替换 p1,p2,,pk ;即积分替换求和符号。

2 Xθ 是参数为 θ 的泊松随机变量,对每个不同的 θ 值,我们想得到无限多个混合的泊松分布,我们取加权函数为 θ 的pdf,即参数为 α,β 的伽玛函数,对 x=0,1,2, ,复合分布的pmf为

p(x)=0[1βαΓ(α)θα1eθ/β][θxeθx!]dθ=1Γ(α)βαx!0θα+x1eθ(1+β)/βdθ=Γ(α+x)βxΓ(α)x!(1+β)α+x

其中第三行使用了变换替换 t=θ(1+β)/β

α=r,β=(1p)/p 其中 0<p<1,r 为正整数时,pmf变成

p(x)=(r+x1)!(r1)!pr(1p)xx!, x=0,1,2,

这个复合分布就是成功概率为 p 的独立重复试验成功次数超过r的概率;这是负二项分布的形式,在车祸数量的问题中负二项分布是很好的模型。

在复合分布中,我们也可以将 X 的原分布看成给定θ的条件分布,用 f(x|θ) 表示,那么加权函数可以看成 θ 的pdf g(θ) 。联合pdf为 f(x|θ)g(θ) 且复合pdf可以看成 θ 的边缘pdf

h(x)=θg(θ)f(x|θ)dθ

θ 是离散分布时积分符号改成求和符号。假设正态分布的均值为0方差为 σ2=1/θ>0 ,其中 θ 来自某个随机模型。方便起见,我们说后者为参数 α,β 的伽玛分布,那么给定 θ,X 是条件 N(0,1/θ) 分布,使得 X,θ 的联合分布为

f(x|θ)g(θ)=[θ2πexp(θx22)][1βαΓ(α)θα1exp(θ/β)]

其中 <x<,0<θ< ,因此 (h(x)) 的边缘pdf通过积分 θ 即可求出;即

h(x)=0βα+1/21βα2πΓ(α)exp[θ(x22+1β)]dθ

通过比较参数 α+12,[(1/β)+(x2/2)]1 的伽玛pdf,我们可以得到

h(x)=Γ(α+12)βα2πΓ(α)(2β2+βx2)α+1/2, <x<

有趣的是如果 α=r/2,β=2/r ,其中 r 为正整数,那么X就是自由度为 r t分布,即我们得到了 t 分布的推广形式。注意得出的分布相比开始的条件正态分布有更严重的厚尾现象。

3假设我们有一个二项分布,但是我们不确定成功的概率 p 。假设p来自某个随机过程,它满足参数 α,β 的贝塔pdf,那么 n 个独立试验成功的次数X满足条件二项分布,使得 X,p 的联合pdf为

p(x|p)g(p)=n!x!(nx)!px(1p)nxΓ(α+β)Γ(α)Γ(β)pα1(1p)β1

其中 x=0,1,,n,0<p<1 。那么 X 的无条件pdf为

h(x)=10n!Γ(α+β)x!(nx)!Γ(α)Γ(β)px+α1(1p)nx+β1dp=n!Γ(α+β)Γ(x+α)Γ(nx+β)x!(nx)!Γ(α)Γ(β)Γ(n+α+β),x=0,1,2,,n

现在假设 α,β 是正整数;因为 Γ(k)=(k1)! ,这个无条件pdf可以写成

h(x)=n!(α+β1)!(x+α1)!(nx+β1)!x!(nx)!(α1)!(β1)!(n+α+β1)!,x=0,1,2,,n

因为条件均值 E(X|p)=np ,无条件均值为 nα/(α+β) ,这是因为贝塔分布的均值等于 α/(α+β)

4 假设 X 满足参数为k,θ1的条件伽玛pdf, θ 的加权函数是参数为 α,β 的伽玛pdf,所以 X 的无条件pdf为

h(x)=0[θα1eθ/ββαΓ(α)][θkxk1eθxΓ(k)]dθ=0xk1θα+k1βαΓ(α)Γ(k)eθ(1+βx)/βdθ

比较参数为 α+k,β/(1+βx) 的伽玛pdf,从而得到

h(x)=Γ(α+k)βkxk1Γ(α)Γ(k)(1+βx)α+k, 0<x<

这是广义的 Pareto 分布(广义 F 分布),当然当k=1( X 是条件指数分布),那么pdf为

h(x)=αβ(1+βx)(α+1),0<x<

这是 Pareto pdf。这两个复合pdf都比开始的伽玛分布有严重的厚尾。

广义 Pareto 分布无法用简单的闭形式表达,但是 Pareto 分布可以

H(x)=x0αβ(1+βt)(α+1)dt=1(1+βx)α, 0x<

从中我们通过 X=Yτ 可以得到另一种有用的长尾分布,其中 0<τ ,所以 Y 的cdf为

G(y)=P(Yy)=P[X1/τy]=P[Xyτ]

因此,这个概率等于

G(y)=H(yτ)=1(1+βyτ)α,0y<

对应的pdf为

G(y)=g(y)=αβτyτ1(1+βyτ)α+1,0<y<

我们称这个分布为变换 Pareto 分布或者 Burr 分布,它给出了建模厚尾分布的分布。

  • 3
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值