《统计学：从数据到结论》第二章数据的收集 2.1数据是怎样得到的/2.2.个体/总体和样本（真伪随机数）

本文链接：https://blog.csdn.net/Alex_Archer/article/details/107138011

《统计学：从数据到结论》

第二章数据的收集

2.1 数据是怎样得到的

我们用于分析的数据主要分为两大类：观测数据和试验数据。
观测数据：在自然的未被控制的条件下观测到的数据，比如犯罪率，就业率，房价，物价指数等。
试验数据：在人工干预控制下收集的数据。

2.2 个体/总体和样本

这里举一个例子，用来把各个概念串到一起。现在需要了解北京市民对建设北京交通设施是应该以公共交通工具为主，还是小汽车为主的观点收集。例子中单个北京市民称为调查的对象，而他们的观点称为调查的个体，所有市民对这一问题的观点为一个总体，调查时问到的那部分市民观点称谓该总体的一个样本，是总体中的一部分。当然也有可能调查所有人，那叫做普查。
在抽样过程中，如果总体中每一个体都有同等机会被选到样本里，这种抽样称为简单随机抽样，而这样得到的样本称为随机样本。
下面就要提到真伪随机数了，要想在大小为N的总体中产生样本量为n的随机样本常用办法就是利用随机数，其不走为：①先把所有总体的个体编号；②产生n个0到N的随机数；③与如此产生的随机数中编号相同的个体行程样本量为n的简单随机样本。在实际工作中为了方便快捷，我们有时候也会使用计算机生成的伪随机数。
实践当中，得到随机样本并不容易。很多调查只能使用简单的方法。还以调查北京交通问题为例，可以选择电话号码进行随机调查，但这并不是随机样本，有人没有电话，有人有多个电话，每个电话被接听的概率不一样。这一类样本称为方便样本。

真伪随机数

下面对真伪随机数做一些比较和自我理解：
真正的随机数是使用物理现象产生的：比如掷钱币、骰子、转轮、使用电子元件的噪音、核裂变等等，这样的随机数发生器叫做物理性随机数发生器，它们的缺点是技术要求比较高。
而计算机中的随机函数是按照一定算法模拟产生的，其结果是确定的，是可见的。我们可以这样认为这个可预见的结果其出现的概率是100%。所以用计算机随机函数所产生的“随机数”并不随机，是伪随机数。
随机数是无规律的，不循环的，不可复现的，这三个特点是与伪随机数最大的差别。而因为现实中的编号往往符合某种规律，所以若此规律与伪随机数的规律部分重合或者相关，就会失去样本选择的随机性。这也是为什么真随机数难以产生，还依然在被部分应用的原因。