CDA数据分析师 LEVEL1考试—《抽样分析及参数估计》

学计算机的

于 2024-07-15 22:13:18 发布

阅读量687

点赞数 7

文章标签：数据分析

本文链接：https://blog.csdn.net/u010542987/article/details/140394908

版权

一、随机的概念

1.随机试验

随机实验是概率论的一个基本概念。概括地讲，在概率论中把符合下面三个特点的试验叫做随机试验：

可以在相同条件下重复的进行。
每次试验的可能结果不止一个，并且能实现明确试验的所有可能结果。
进行一次试验之前不能确定哪一个结果会出现。

2.随机事件

在概率论中，随机事件（或简称事件）指的是一个被赋予机率的事物集合，也就是样本空间中的一个子集。简单来说，在一次随机试验中，某个特定事件可能出现也可能不出现；但当试验次数增多，我们可以观察到某种规律性的结果，就是随机事件。

3.随机变量

设随机试验的样本空间S={e}，X=X(e)是定义在样本空间S上的单值实值函数，称X为随机变量。

二、概率分布

正态分布的图像形式

了解变量的分布情况，先要了解正态分布。首先，正态分布是关于均值左右对称的，呈钟形，如下图所示。其次，正态分布的均值和标准差具有代表性，只要知道其均值和标准差，这个变量的分布情况就完全知道了。在正态分布中，均值=中位数=众数。

三、抽样分布

中心极限定理

从均值μ，方差δ²的一个任意总体中抽取容量为n的样本，当n充分大时，样本均值的抽样分布近似服从均值为μ，方差为δ²/n的正态分布。

根据中心极限定理，我们知道如果做很多次抽样的话会得到很多个样本均值，而这些样本均值排列起来会形成正态分布，他们的平均数是 $\mu$ ，标准差是 $\sigma \sqrt{n}$ ，换句话说，有约68%的样本均值会落在 $\mu \pm\sigma/ \sqrt{n}$ 之间，有约95%的样本均值会落在 $\mu \pm 2\sigma \sqrt{n}$ 之间，有约99.7%的样本均值会落在 $\mu \pm 3\sigma \sqrt{n}$ 之间。

把上述说法稍微转换一下就编程：有68%的 $\bar{x}\pm \sigma /\sqrt{n}$ 会包含着 $\mu$ ，有99.7%的 $\bar{x}\pm 3\sigma /\sqrt{n}$ 会包含着 $\mu$ ，而这就是抽样和估计最根本的道理。

我们从全体之中以随机抽样方式抽取n个样本，取得样本观察值，计算它们的平均数 $\bar{x}$ ，然后加减两倍的 $\sigma \sqrt{n}$ 得到一组上下区间，然后说：我们有95%的信心，这个上下区间一定会包含着全体的平均数 $\mu$ 。如果我们仍不放心的话，可以用 $\bar{x}$ 加减三倍的 $\sigma \sqrt{n}$ ，那么这组区间包含着 $\mu$ 的置信度就有99.7%。

四、参数估计

点估计

用样本平均数 $\bar{x}$ 来估计总体的平均数 $\mu$ 称为点估计。点估计命中目标的机会是极低的，因为只凭着少数样本观察值得到的结果要和全体的平均数吻合几乎是不可能的事，所以我们除了点估计，还要用区间估计。根据中心极限定理和正态分布的特性我们知道 $\bar{x} \pm\sigma/ \sqrt{n}$ 这个区间包含着全体平均数 $\mu$ 的机会有68%（为了简介表达，省去“约”）， $\bar{x} \pm 2\sigma \sqrt{n}$ 的机会有95%，而 $\mu \pm 3\sigma \sqrt{n}$ 的机会有99.7%！真正可靠的估计势必要用区间估计，只有这样做我们才可以知道估计准确的成都，而这68%，95%，99.7%就称作是置信水平，说得更确切一点，以95%置信水平为例，它的意思是：如果我们进行一百次独立的抽样估计，会有一百个样本平均数，也会有一百个区间估计，而这一百个区间估计里会有95个正确地包含着全体平均数μ。实际上我们不会做一百次抽样，而是只做一次，所以说这一次抽样而来的区间估计会包含着μ的机会是95%，置信水平越高，估计的区间也就越宽，这是高置信水平所必须符出的代价。

区间估计刚刚提到过一个好的估计必须即准又稳，我们用 $\bar{x}$ 来估计 $\mu$ ，如果做很多次的话，会有很多个 $\bar{x}$ 。中央极限定理已经给我们保证，这些 $\bar{x}$ 的平均数会等于 $\mu$ ，所以是[准]的估计已无问题，但是这些 $\bar{x}$ 是否都靠近在一起，称得上是[稳]呢？这就要看这些 $\bar{x}$ 的标准差了。我们已经知道 $\bar{x}$ 的标准查是 $\sigma \sqrt{n}$ ，其中 $\sigma$ 是全体的标准差，n是样本数，把样本数加大会使得标准差变小，所以我们马上领悟到样本数越大，估计也就越稳。其次， $\sigma$ 是全体数据的标准差，我们并不知道它到底是多少，在区间估计里我们也需要用到它，因此为了要知道估计的准确程度，连全体资料的 $\sigma$ 也要一起估计才行。至少有两种方法来估计 $\sigma$ ，一是用样本观察值的标准差 $\boldsymbol{\mathit{S}}$ ， $S^{2}$ 的定义是：