统计的一个基本假设前提,就是调查前的样本,其数据特征已经是不变的。就好比盲盒里已经设置好了一二三等奖,或者说标准过程生产的工业制品,其产品质量的分布情况。
尽管在调研前,我们对具体情况不甚清楚。但是可以通过一些行之有效的 经验方法,尽可能的表达清楚样本的具体情况,
这一切成立的最重要的前提条件,就是被调查的样本它是确定的。换句话说,就是我们无法对一个不断随机变化的样本进行建模。
什么是「被观测样本的确定性」
就好比地球和太阳之间的运动规律是遵循万有引力,尽管可能在运动轨迹上由于诸多因素影响可能在每一天的运动轨迹上出现一丝丝的细微偏差 「噪音」 ,但是终究地球围绕太阳的运动轨迹是一个椭圆 「样本遵循某种规律或者分布」 ,所以我们可以通过对历史记录太阳位置的偏差的统计信息,预测出地日运动轨迹 「建模」 。而不是太阳由某个神比如阿波罗用马车牵引着,以祂的心情随机的出现在地球上某个地方。
所以,这就是所谓确定性!
例题
设 X 1 , X 2 , X 3 , ⋯ , X n X_1, X_2, X_3, \cdots, X_n X1,X2,X3,⋯,Xn 来自于总体样本为 X ∼ ( μ , σ 2 ) X \sim (\mu, \sigma^2) X∼(μ,σ2) 的随机样本,其中 μ \mu μ 已知, σ 2 \sigma^2 σ2 未知,则下列样本函数不是统计量的:
(1) 1 n ∑ i = 1 n X i \frac{1}{n} \sum_{i=1}^{n} X_i n1i=1∑nXi
(2) m a x { X 1 , X 2 , ⋯ , X n } max\{ X_1, X_2, \cdots, X_n \} max{X1,X2,⋯,Xn}
(3) ∑ i = 1 n ( X i − μ σ ) 2 \sum_{i=1}^{n} (\frac{X_i - \mu}{\sigma})^2 i=1∑n(σXi−μ)2
(4) 1 n ∑ i = 1 n ( X i − μ ) 2 \frac{1}{n} \sum_{i=1}^{n}(X_i - \mu)^2 n1i=1∑n(Xi−μ)2
答案自然选(3),至于为什么,你就慢慢想吧。
当问题是确定的,我们接下来就要考虑如何收集数据了。
有效的收集数据
由于统计本质上属于一种 经验性 分析方法的总结,它自然就没有太多严格的公式定理推导,这也导致这部分内容显得杂乱。但是我们依然可以从前人如何发现和使用统计方法,来接触和学习这门重要的学科。
首先在前面的内容里,已经说明了被观测的样本,它本身已经有某种确定的规律、特征,那就意味着我们可以对这样数据或者样本进行分析。
常用的数据收集方法无非这么几种:
- 全面观测(普查)
- 抽样调查(随机抽样)
- 实验
- 其他
对于大多数情况,尤其是「整体」特别多的情况下,我们最常用手段就是抽样调查。需要注意的是,抽要调查必须要保证数据的随机性,这就是经常提到的——简单抽样调查。
除了简单抽样调查,我还找到别人罗列的一些在统计学常用的调查方法,有兴趣的可以看一看:《统计数据收集方式与收集方法》
有效的使用数据
当获取到数据后,需要有效的使用数据。我们从数据中要找到某种规律,并通过总结的规律去 推断 结论。我们使用不同的推断方法,自然会得出不同的结果,这也就是为什么说统计学更多的是一门关于“经验”的学科,比如说:
为了评估一箱苹果个体的总量。从苹果中随机抽样10个,放在天平上称得重量 x 1 , x 2 , x 3 , ⋯ , x 10 x_1, x_2, x_3, \cdots, x_{10} x1,x2,x3,⋯,x10。我们使用三种不同的方法评估重量:
(1) 用10个苹果的算术平均去估计;
(2) 把重量按照从轻到重依次排列,选取中间的重量;
(3) 选取最轻和最重的苹果,计算平均值。
那么我们要问一个问题,就是我们使用哪种方法能更好评估苹果的重量?所以我们自然而然的想到了类似均值、期望、方差等概念评估数据样本情况。你看,一不小心,我们之前涉及到的概率知识在这里就产生了联系。
统计学作为一门基于观察、经验归纳而建立起来的学科,尽管它属于数学这个大学科的分类,但又和传统的依据逻辑推理而来的数学有着区别的地方。
由于归纳的原因,必然存在着不确定性,不确定性来源有很多,比如数据本身的误差,观测的误差,还有参数因子之间的误差。所以统计学除了研究如何分析样本、抽样、并建立模型外,还有涉及对参数有效区间的估计,即对未知参数可靠性的评估。
统计模型
我们获得样本后,接下来就要考虑怎么分析样本的概率分布、或者概率密度了;而这就是概率模型,或者数学模型,例如:
一大批产品共有N个,其中废品有M个,N已知,M未知。现在从中抽取n个加以检验,用以估计废品率 p = M / N p = M / N p=M/N
(1) 有放回的抽样,抽完n个为止,求样本分布
(2) 不放回抽样,直到抽取n个未知,求样本分布
针对第(1)种抽样方法,明显符合0-1分布模型,即单次抽取到废品的概率为 M / N M/N M/N, 抽取到良品的概率为 ( N − M ) / M (N - M) / M (N−M)/M,于是我们得以建立概率模型
P ( X = a ) = ( M N ) a ( N − M N ) n − a P(X=a) = (\frac{M}{N})^a (\frac{N - M}{N})^{n-a} P(X=a)=(NM)a(NN−M)n−a
这里的a表示抽取到的次品的次数。而针对(2)则是
P ( X = a ) = C M a C N − M n − a C N n = M ⋅ M − 1 N ⋅ N − 1 ⋯ M − a + 1 N − a + 1 ⋅ N − M N − a ⋯ N − M − n + a + 1 N − n + 1 P(X=a) = \frac{C_M^a C_{N-M}^{n-a}}{C_N^n} = \frac{M \cdot M-1}{N \cdot N-1} \cdots \frac{M -a + 1}{N - a +1} \cdot \frac{N - M}{N -a} \cdots \frac{N - M - n + a + 1}{N -n + 1} P(X=a)=CNnCMaCN−Mn−a=N⋅N−1M⋅M−1⋯N−a+1M−a+1⋅N−aN−M⋯N−n+1N−M−n+a+1
你看,我们使用不同的抽样方法,建立的模型就会不一样,尽管他们都是针对同一批总体。
统计推断
从总体中抽取一定大小的样本去推断总体的概率分布方法,又称为统计推断。 而有时候,样本的分布形式已知,比如以正态分布形式、指数形式分布,但是参数未知,比如正太分布来说,我们有可能仅知道 μ \mu μ,而不知道 σ \sigma σ,对未知参数的估计,又称为 参数统计推断。