《大数据分析原理与实践》——2.3　推断统计-CSDN博客

2.3　推断统计

推断统计是研究如何利用样本数据来推断总体特征的统计方法，其目的是利用问题的基本假定及包含在观测数据中的信息，做出尽量精确和可靠的结论。基本特征是其依据的条件中包含带随机性的观测数据。以随机现象为研究对象的概率论是统计推断的理论基础。它包含两个内容：参数估计，即利用样本信息推断总体特征，例如某一群人的视力构成一个总体，通常认为视力是服从正态分布的，但不知道这个总体的均值，随机抽部分人，测得视力的值，用这些数据来估计这群人的平均视力；假设检验，即利用样本信息判断对总体的假设是否成立。例如，若感兴趣的问题是“平均视力是否超过4.8”，就需要通过样本检验此命题是否成立。

2.3.1　参数估计

实际问题中，所研究的总体分布类型往往是已知的，但是要依赖于一个或者几个未知的参数。这时，求总体分布的问题就归结成了求一个或者几个未知参数的问题，这就是所谓的参数估计。

例如，一款电灯的使用寿命X是一个随机变量，我们由实际的经验知道X服从正态分布N(μ，σ2)。要想了解这款电灯的实际性能，我们就需要估计出μ和σ2值。又如，一段时间内某个商场的客流量可以用泊松分布来刻画，那么若想知道一定的时间间隔内经过的人数为k的概率，就要估计参数λ的值。

因而，在总体分布已知的情况下进行参数估计是推断统计的重要内容。有些实际问题中人们不关心总体分布的形式，而只是想知道均值、方差等某些数字特征，对这些数字特征的估计问题，也是参数估计的一部分内容。

参数估计主要有点估计和区间估计两类，我们分别讨论。

1.点估计

（1）点估计的两种方法

点估计主要有矩估计和极大似然估计两种。

2.区间估计

区间估计是从点估计值和抽样标准误差（standard error）出发，按给定的概率值建立包含待估计参数的区间。其中这个给定的概率值称为置信度或置信水平，这个建立起来的包含待估计参数的区间称为置信区间。置信度是指总体参数值落在样本统计值某一区间内的概率；而置信区间是指在某一置信水平下，样本统计值与总体参数值间的误差范围。置信区间越大，置信水平越高。划定置信区间的两个数值分别称为置信下限和置信上限。

区间估计的原理是样本分布理论。即在进行区间估计值的计算及估计正确概率的解释上，是依据该样本统计量时分布规律样本分布的标准误差。也就是说，只有知道了样本统计量的分布规律和样本统计量分布的标准误差，才能计算总体参数可能落入的区间长度，才能对区间估计的概率进行解释，可见标准误差及样本分布对于总体参数的区间估计是十分重要的。

样本分布可提供概率解释，而标准误差的大小决定区间估计的长度，标准误差越小置信区间的长度越短，而估计成功的概率仍可保持较高水平。一般情况下，加大样本容量可使标准误差变小。

如上所述，区间估计存在成功估计的概率大小及估计范围大小两个问题。人们在解决实际问题时，总希望估计值的范围小一点，成功的概率大一些。但在样本容量一定的情况下，二者不可兼得。如果使估计正确的概率加大些，势必要将置信区间加长，若使正确估计的概率为1.00，即完全估计正确，则置信区间就会很长，也就等于没做估计了。这就像在百分制的测验中你估计一个人的得分可能为0～100分一样。反之，如果要使估计的区间变小，那就势必会使正确估计的概率降低。

统计分析中一般规定：正确估计的概率即置信水平为0.95或0.99，那么显著性水平则为0.05或0.01，这是依据“0.05或0.01属于小概率事件，而小概率事件在一次抽样中是不可能出现的”原理规定的。

2.3.2　假设检验

2.3.3　假设检验的阿里云实现

接下来的几章我们将介绍多个分析模型，包括关联分析模型、分类分析模型、聚类分析模型、结构分析模型和文本分析模型。

需要注意的是，下面几章仅在大数据分析的数学模型和基本方法层面加以讨论，并不涉及其在大数据上的具体实现算法，并给出基于阿里云平台对其进行分析的方法，具体实现算法将在后面的章节中详细讨论。

下面几章实现大数据分析的阿里云工具构建于阿里云MaxCompute、GPU等计算集群之上，汇集了分布式机器学习算法、文本处理算法、图分析算法等，可高效地完成海量、亿级维度数据的复杂计算，并且提供了一套极易操作的可视化编辑页面，大大降低了大数据分析的建模门槛，提高了建模效率，最终帮用户快速得到需要的大数据模型而无须了解其具体实现算法。

需要说明的是，大数据分析模型内容非常丰富，其范畴涵盖了统计学、数据挖掘、图论以及诸多相关领域，很难在一本书中对其进行全面阐述，本书采取广度优先的方式进行介绍，尽可能多地覆盖分析模型，供读者参考。由于篇幅所限，对于模型的性质缺少深度的介绍，对于具体模型的深度讲解可以参考相应的教材和专著，例如《复杂数据统计方法》《多元统计分析导论》和《模式分类》等。