这一篇估计会是非常长时间积累的博客。
Random Sample
iid概念:如果 X1,...Xn 彼此之间相互独立的变量,并且每一个变量 Xi 的边缘概率pdf或pmd都是一样的函数 f(x) ,那么我们就把变量 X1,...Xn 称作是 f(x) 的随机取样。也可以说, X1,...Xn 是independent and identically distrubuted randome variables(独立同分布),且pdf或pmf是 f(x) 。
那么不难得到iid的联合概率分布是 f(x1,...,xn|θ)=∏ni=1f(xi|θ) 。
- 样本均值: X¯=1n∑Xi
- 样本方差: S2=1n−1∑(Xi−X¯)2
- 定义 x1,...,xn 是任意数字,且 x¯=(x1+...+xn)/n ,则我们有
3.1 mina∑(xi−a)2=∑(xi−x¯)2
3.2 (n−1)S2=∑(xi−x¯)2=∑x2i−nx¯2
其中 x¯ , s2 是对应于 X¯ , S2 观测值。
Data Reduction
我们使用 T(X) 这个统计量来定义data reduction或者数据总结。如果只使用观测到的统计值数据 T(X) ,而不是所有的观测样例 x ,那么只要两个观测样例符合
data reduction对于某种统计来说,可以认为是对样本空间 χ 的分割。比如, T={ t:t=T(x) for some x∈χ} 是 T(x) 在空间 χ 的镜像。那么 T(X) 就把样本空间分割成了集合 At,t∈T ,其中 At={ x:T(x)=t} 。统计量就总结样本为,与反应整个样本空间不同,他只反映 T(x)=t 的部分,或者是指反映 x∈At 的样本。
比如, T(x)=x1+...+xn ,那么这个统计量就只反映实际样本数值的和。可能有其他的样本会有同样的样本数之和。下面就讨论一下这种data reduction方法的利弊。
我们主要讨论三个原则。希望使用的data reduction能够不会损失关于未知参数 θ 的重要信息,并且不用考虑无关信息。充分性原则(sufficiency principle)保证了不损失关于 θ 的信息,同时获取数据的一些总结(summaries)。似然原则(likelihood principle)根据观测到的样本,描述了参数的函数,包含了所有能从样本中获取的关于 θ 的信息。同变性原则(equivariance principle)指定了另外一种data reduction的方法,仍然能够保持模型的某些重要特征。
The Sufficiency Principle(充分性原则)
If T(X) is a sufficient statistic for θ , the nany inference about θ should depend on the sample X only through the value T(X) . That is, if x and
y are two sample points such that T(x)=T(y) , then the inference about θ should be the same whether X=x or X=y is observed.
对于某个参数 θ 的充分统计量(sufficient statistics),就获取关于 θ 的所有信息。而所有样本中的额外信息都不包含在内。这就是充分性原则。
充分统计量
统计量 T(X) 是充分统计量,当样本 X 的条件分布,给定
T(X) 时,不依赖于 θ 。
概念理解:首先对于连续的分布,概率密度分布(pdf)在某一个点是0,也就是 Pθ(T(X)=t)=0 ,所以条件概率也是0,与 θ 无关。考虑离散分布的情况。
对于离散值,首先 t 是某一个
- 如果样本点 x ,
T(x)≠t ,那么明显 Pθ(X=x|T(X)=t)=0 。 - 因此更感兴趣的是 Pθ(X=x|T(X)=T(x)) 。(根据定义,如果 T(X) 是充分统计量,那么这个条件概率对于所有的 θ 都一样,所以可以忽略下标, P(X=x|T(X)=t) 。)
下面就要证明 Pθ(X=x|T(X)=x) 与 θ 无关。同时根据定义,知道 X=x 是 T(X)=T(x) 的子集。我们可以得到:
Pθ(X=x|T(X)=T(x))=X=x and T(X)=T(x)Pθ(T(X)=T(