统计数据分析所用的方法可分为描述统计方法和推断统计方法。描述统计(descriptive statistics) 研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法。推断统计(inferential statistics) 是研究如何利用样本数据来推断总体特征的统计方法。通过对统计数据的整理和描述,可以使我们对客观事物的概貌有一个了解。然而,简单的描述方法只能实现对统计数据粗浅的利用,它与从统计数据挖掘出规律相去甚远。统计数据中隐含着非常丰富的重要信息,要想有效地充分利用统计数据,需要运用推断统计的方法。推断统计就是在搜集、整理观测样本数据的基础上,对有关总体作出推断,其特点是根据随机性的观测样本数据以及问题的条件和假定,对未知事物作出的以概率形式表述的推断。
随机现象
在自然界和人类社会中出现的现象,大致可分为两类:一类是在一定条件下必然出现的现象,称为确定性现象。例如:向上抛一石子必然下落,同性电荷必然相斥,“旭日东升”,“夕阳西下”等。
而另一类则是在一定条件下无法事先准确预知其结果的现象,称为随机现象,例如:
- 抛掷一枚硬币,有可能正面朝上,也有可能反面朝上;
- 掷一颗骰子,出现的点数;
- 将来某日某种股票的价格;
- 某型号电池的寿命;
- 未来某天进入某超市的顾客数。
随机现象到处可见。由于随机现象的结果事先不能预知,初看起来似乎毫无规律。然而,人们发现同一随机现象在大量重复出现时,其每种可能结果的频率却具有稳定性,从而表明随机现象也具有其固有的量的规律性,人们把随机现象在大量重复出现时所表现出来的量的规律性称为随机现象的统计规律性。例如,一名优秀的射手,一两次射击不足以反映其真实水平,只有多次重复射击才能反映其真正水平。再例如,抛掷一枚“均匀的”硬币,尽管掷一次时,有可能正面朝上,也有可能反面朝上,但是重复掷多次时,将会发现正面与反面朝上的次数大致相等,约各占总次数的.
为了对随机现象的统计规律进行研究,就需要对随机现象进行大量的重复观察,对随机现象的观察称为随机试验,简称试验。
- 例 1:抛掷一枚硬币,观察朝上的是哪个面。
- 例 2:同时抛掷两枚硬币,观察两枚分别朝上的是哪个面。
- 例 3:掷一颗骰子,观察出现的点数。
- 例 4:考察某地12月份的最低气温(设范围为).
- 例 5:从一批灯泡中任取一只,预测灯泡的寿命。
以上都是随机试验的例子。一般地,随机试验具有如下三个特点:
- 可重复性:试验在相同的条件下可重复进行;
- 随机性:每次试验的结果是不确定的,事先无法准确预知;
- 可观察性:试验结果是可观察的,所有可能的结果是明确的。
样本空间和事件
假设某次试验的结果是不可预知、不确定的。当然,尽管在试验之前无法得知结果,但是假设所有可能结果的集合是已知的,则这些所有可能结果构成的集合,称为该试验的样本空间(sample space), 并记为 . 样本空间 的任一子集 称为事件(event), 事件就是由试验的某些可能结果组成的一个集合。如果一次试验的结果包含在 里面,那么就称 发生了。以下是一些样本空间和相关事件的例子:
- 掷两枚硬币,考察哪一面朝上,那么样本空间一共包含如下四种结果:,其中 (head) 代表正面朝上, (tail) 代表反面朝上。所以表示两枚硬币都是正面朝上;表示第一枚硬币正面朝上,第二枚硬币反面朝上;表示第一枚硬币反面朝上,第二枚硬币正面朝上;表示两枚硬币都是反面朝上。如果, 那么 就表示“第一枚硬币正面朝上”。
- 掷两枚骰子,考察两枚骰子的点数,那么样本空间包含 36 个结果:
即 ,其中 表示第一个骰子的点数是 , 第二个骰子的点数是 . 假设 种结果都是等可能发生的,因此每种结果发生的概率为 . 进一步假设已知第一枚骰子点数为 , 在这些条件下两枚骰子的点数之和为 的概率是多大?为了计算这个概率,解释如下:既然第一枚骰子点数为 , 那么掷两枚骰子一共有 种可能结果:. 因为每个结果发生的概率都一样,那么这 种结果是等可能的,即在给定第一个骰子的点数为 的情况下,下面 种结果 ,每一个结果发生的(条件)概率应该是 , 而样本空间中其他 个点的(条件)概率应该是 . 这样,在第一个骰子的点数为 的情况下,两枚骰子的点数之和为 的概率应该是 .
如果令 和 分别表示“两枚骰子点数之和为 ” 和 “第一个骰子点数为 ”,利用上述方法,计算得到的概率为称为假定 发生的情况下 发生的条件概率,记为 .