统计量是数据的函数。函数就是一种「浓缩」讯息的动作。因此, 统计量中所包含的讯息, 通常比整个样本数据所包含的来得少.例如样本的顺序统计量只包含了有哪些值出现, 而不同值出现的顺序这样的讯息不见了。
但统计量比样本原数据少掉的讯息可能是无关紧要的 --- 和我们要了解的群体特性不相干, 如上述数据出现顺序在很多时候和我们关心的群体特性无关。统计量所包含关于群体特性的讯息不比原样本数据少, 就是充分统计量。
在参数化模型, 例如常态分布, 我们可能用很简单的统计量就可囊括样本中所包含的全部参数讯息, 如样本平均数和样本变异数包含了样本所携带的, 关于常态群体参数 (群体平均数和标准差) 的全部讯息。但有些时候,尤其是非参数化模型, 可能要整个样本的顺序统计量才是充分的。
sufficient statistic 充分统计量
对于一个未知分布而言,充分统计量sufficient statistic,顾名思义,就是当知道这些量的时候,这个分布就可以确定了,所以这些量才有sufficient的意思,足够的意思。有了这些量,即便丢失掉样本的其他信息也对于估计未知的分布而言也是无关紧要了,所以那些量才能成为是sufficient的。维基上的解释最经典,没有任何其他来自同样样本的统计量能够比充分统计量提供更多关于未知参数的信息(我是这么理解的)。原句如下:In
比如,对于一些来自未知分布的样本,对于参数估计而言,就是可以把这个未知的分布表示成p(\Theta)的形式,样本的分布就可以表示为p(x|\Theta); 而充分统计量,假设为q,它的存在意义是当我们比较难以推导出\Theta时,如果由这些样本能比较容易的决定q,那此时p(x|\Theta)就等同于p(x|q),我们就由比较容易得出的充分统计量来代替了原来难以直接推导出的参数q。