充分统计量
标签: 模式分类
@author lancelot-vim
定义
我们把任何关于样本集
D
的函数都称为一个统计量,一个充分统计量就是一个关于样本集
举个例子说:对于高斯分布,期望和协方差矩阵就是它的充分统计量,因为如果这两个参数已知,就可以唯一确定一个高斯分布,而对于高斯分布的其他统计量,例如振幅,高阶矩等在这种时候都是多余的。
因式分解定理
充分统计量的最基本定义是因式分解定理,即如果
S
是
s是θ 的充分统计量,当且仅当 P(D|θ)=g(s,θ)h(D)
充分统计量和指数族
假如 s是θ 的充分统计量,将 P(D|θ)=g(s,θ)h(D) 代入贝叶斯一般理论公式 p(θ|D)=p(D|θ)p(θ)∫p(D|θ)p(θ)dθ 可得: p(θ|D)=g(s,θ)p(θ)∫g(s,θ)p(θ)dθ ,假如我们对 θ 很不确定,那么可以选择一个近似与均匀分布的 p(θ) ,在这种情况下,实际上 p(D|θ) 就几乎等于核函数 g¯(s,θ)=g(s,θ)∫g(s,θ)dθ
一个正态分布的示例
对于一个协方差已知,期望未知的正态分布,假设 p(x⃗ |θ⃗ )∼N(θ⃗ ,Σ) 有:
p(D|θ⃗ )=∏k=1n1(2π)d2|Σ|12exp[−12(x⃗ k−θ⃗ )TΣ−1(x⃗ k−θ⃗ )] =exp[n2θ⃗ TΣ−1θ⃗ +θ⃗ TΣ−1x⃗ k(∑x⃗ k)]=g(u⃗ ^n,θ⃗ )×h(D)
其中 u⃗ ^n=1n∑nk=1x⃗ k
根据核函数公式:
指数族函数
对于可用 p(x⃗ ,|θ⃗ )=α(x⃗ )exp(a(θ⃗ )+b(θ⃗ )Tc(x⃗ ) 来表示的函数叫做指数族函数,其几乎包括了常用的所有分布,对于这种函数,如果它作为某个事件的概率密度,那么总能使用核函数方法来估计分布
- s⃗ =1n∑nk=1c(x⃗ k)
- g(s⃗ ,θ⃗ )=exp[na(θ⃗ +b(θ)Ts⃗ ]
- h(D)=Πnk=1α(x⃗ k)