充分统计量

本文介绍了充分统计量的概念及其在概率模型中的应用。通过因式分解定理解释充分性的定义,并以正态分布为例展示了如何从样本中提取充分统计量。

充分统计量

标签: 模式分类

@author lancelot-vim


定义

我们把任何关于样本集D的函数都称为一个统计量,一个充分统计量就是一个关于样本集D的函数s(允许是向量形式的函数),其中包含了能有助于估计某种参数θ的全部相关信息,就是说我们希望充分统计量的定义能够有这样的约束条件:p(θ|s,D)=p(θ|s)

举个例子说:对于高斯分布,期望和协方差矩阵就是它的充分统计量,因为如果这两个参数已知,就可以唯一确定一个高斯分布,而对于高斯分布的其他统计量,例如振幅,高阶矩等在这种时候都是多余的。

因式分解定理

充分统计量的最基本定义是因式分解定理,即如果Sθ的充分统计量,那么p(D|θ)可以写成一个只依赖于sθ的函数和一个只与样本有关的函数的乘积,用数学的语言描述如下:

sθ的充分统计量,当且仅当P(D|θ)=g(s,θ)h(D)


充分统计量和指数族

假如sθ的充分统计量,将P(D|θ)=g(s,θ)h(D)代入贝叶斯一般理论公式p(θ|D)=p(D|θ)p(θ)p(D|θ)p(θ)dθ可得:p(θ|D)=g(s,θ)p(θ)g(s,θ)p(θ)dθ,假如我们对θ很不确定,那么可以选择一个近似与均匀分布的p(θ),在这种情况下,实际上p(D|θ)就几乎等于核函数g¯(s,θ)=g(s,θ)g(s,θ)dθ

一个正态分布的示例

对于一个协方差已知,期望未知的正态分布,假设p(x⃗ |θ⃗ )N(θ⃗ ,Σ)有:

p(D|θ⃗ )=k=1n1(2π)d2|Σ|12exp[12(x⃗ kθ⃗ )TΣ1(x⃗ kθ⃗ )]    =exp[n2θ⃗ TΣ1θ⃗ +θ⃗ TΣ1x⃗ k(x⃗ k)]=g(u⃗ ^n,θ⃗ )×h(D)

其中u⃗ ^n=1nnk=1x⃗ k

根据核函数公式:g¯(s,θ)=g(s,θ)g(s,θ)dθ,可得:g¯(u⃗ ^n,θ⃗ )=1(2π)d2|1nΣ|12exp[12(θ⃗ u⃗ ^n)T(1nΣ)1(θ⃗ u⃗ ^n)]


指数族函数

对于可用p(x⃗ ,|θ⃗ )=α(x⃗ )exp(a(θ⃗ )+b(θ⃗ )Tc(x⃗ )来表示的函数叫做指数族函数,其几乎包括了常用的所有分布,对于这种函数,如果它作为某个事件的概率密度,那么总能使用核函数方法来估计分布

  • s⃗ =1nnk=1c(x⃗ k)
  • g(s⃗ ,θ⃗ )=exp[na(θ⃗ +b(θ)Ts⃗ ]
  • h(D)=Πnk=1α(x⃗ k)

核函数表1.png-107.7kB
核函数表2.png-93.7kB


评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值