【Statistics】Understanding Some Concepts from Statistics Aspect

最新推荐文章于 2021-01-04 15:58:17 发布

leekeifon

最新推荐文章于 2021-01-04 15:58:17 发布

阅读量172

点赞数

分类专栏： math 文章标签： probability

本文链接：https://blog.csdn.net/sinat_37331885/article/details/85802790

版权

math 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Understanding Some Concepts from Statistics Aspect

通过Khan Accademy中关于 Probability and Statistics(国内) 的学习(建议使用Probability and Statistics(国外))，对 Probability 中学到的概念有了一些新的理解，解决了之前困扰我的问题。可能并不是很连续的知识，只是一些帮助我理顺逻辑的知识，希望这些内容同样能够帮助现在的你。

0.什么是统计学(statistics)?

更宽泛的意义来说，统计学(statistics)是处理数据的一个学科。一般来说，它有两个分类：Inferential Statistics 和 Descriptive Statistics。

Inferential Statistics : 通过数据(样本数据sample data)，给出结论。
Descriptive Statistics : 用简单的数据(eg. 算术平均/方差/中位数)，描述总体数据(population)应该长什么样子。

特别地，Statistics 中很喜欢用 central tendency 一词。这个词是描述数据该长什么样子的一个维度，另一个维度是 disperssion。具体地，我们可以用平均数，中位数，众数等具体形式算出的数值来量化 central tendency，用方差来量化 disperssion。

1.惯用的符号(Notation)

熟悉统计学的符号，可以让我们减轻理解的负担，更重要的是，可以方便地消除歧义。

总体均值(population mean)： $\mu$
总体方差(population variance)： $\sigma^{2}$
样本均值(sample mean)： $\bar{X}$
样本方差(sample variance)： $S^2$

另外，样本(sample)的统计量，习惯上称为 统计量(statistic) ；而总体(population)的统计量，习惯上称为 参数(parameter)。因为，普遍习惯将未知待求的量称为parameter，而求解parameter的过程，就是时常听说的 推断(inferring)。

2.为什么均值又称为期望值？(Mean and Expectation)

注意，均值 $\mu$ (mean) 的含义是，总体均值(mean of population)。换句话说，理论上而言，当我们要求均值 $\mu$ 时，我们需要获得整体的所有数据。

然而，在实际中，我们一般只拥有样本(sample)的数据，而非整体的数据。另一种情况是，当我们处理连续随机变量(continuous r.v.)时，我们更加不可能获得整体的数据，因为这是无限不可数(uncountable)的集合。

最终，我们选择使用 “频率” 来代表 “一片” 数据。即假设有人告诉我，整体数据的分布是怎么样的时候(某个数据占比是多少)，我们并不需要知道每一实验得到的值具体是多少，我们也可以把均值算出来。对于Statistics，可以止步于此。但对于 Probability 而言，我们还用了这么一个假设，即我们 假设当实验次数无穷多的时候，频率值接近于概率值。

题外话是，这样算出来的 “均值” 是不是或多或少有点 “期望” 的味道在里面呢？毕竟生活经验告诉我们，如此大量的数据总会有漏网之鱼，我们只能期望均值是我们算出来的这个值。

3.为什么无偏样本方差长这样？(Unbiased Sample variance)

样本方差：
$S_{n} = \frac{\sum\limits_{i=1}^{n} (x_{i}-\mu)^{2}}{n}$

无偏样本方差：
$S_{n-1} = \frac{\sum\limits_{i=1}^{n} (x_{i}-\mu)^{2}}{n-1}$
这里，关键在于这是 样本(sample) 的方差，而不是 整体(population) 的方差。对于整体的无偏方差，分母依旧是 $n$ 。另外，请注意 $\sqrt{S_{n-1}}$ 得到的样本标准差并不是无偏的。

（直观理解）虽然看公式看起来并不直观，但我们可以设想这么一种情景帮助我们去接受这个结果：（待续）

可以想象

（严谨的证明）：(待续)

4.理解泊松分布(Poisson distribution)

待续

5.中心极限定理(The Central Limit Theorem)

0）意义

可以“融合”各种形式的分布(满足i.i.d.条件即可)，形成性质甚佳的正态分布，方便建模。

1）定义

Let $X_1,X_2,\dots$ be a sequence of independent identically distributed random variables with common mean $\mu$ and variance $\sigma^2$ , and define:
$Z_n = \frac{X_1+X_2+\dots+X_n}{\sigma\sqrt{n}}$
Then, the CDF of $Z_n$ converges to the standard normal CDF:
$\Phi(z)=\frac{1}{\sqrt{2\pi}}\int_{ - \infty }^{z} {e^{-\frac{x^2}{2\sigma ^2}}dx}$
In the sense that, for every $z$ :
$\lim_{{n\to\infin}} P(Z_n \leq z ) = \Phi(z)$

2）直观理解

待续

3）数学证明

待续

6.置信区间(Confidence Intervals)

0）意义

置信区间是一种量化手段。量化的对象是 估计的好坏 (Determine how good the estimate is.)

1）定义

待续

2）直观理解

通过以下两种等价的表达来帮助理解：

We are confident that there is 95% chance that the sample mean $\bar {X}$ is within some standard derviation of population mean $\mu$ .
We are confident that there is 95% chance that the population mean $\mu$ is within some interval of the sample mean $\bar {X}$ .

一般而言，我们可以通过中心极限定理(The Central Limit Theorem)来获得 sampling distribution of sample mean。此时，sampling distribution 有如下性质：
$\mu_{\bar{X}} =\mu$

$\sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}}$

所以，最直接地，我们可以通过sampling distribution 得到第一个表述的结果。通过相对的变化，我们可以获得第二个表述的结果。

一定要注意的是，这里的表述指的是"We are confident that …"，而并不是真的有95%的概率满足。

另外，经验而言，当我们为需要为小样本容量(sample size $n\leq 30$ ) 计算置信区间时，我们可以选择使用 t distribution 对sampling data 进行建模。

7.其它

1) 二项分布为什么叫二项分布？

我经常会记混 Bernouli distribution 和 Binomial distribution。原因也很简单，因为都是读音和写法感觉都很像嘛。但当你知道Binomial distribution 名字的由来，我相信再也不会记错了。

此处的Binomial，是得名于 Binomial coefficient (牛顿二项展开式系数)即：
$C_{n}^{k} = \frac{n!}{k!(n-k)!}$
另外，Binomial distribution 描述的是，进行 $n$ 个满足 Bernouli distribution 的实验，且实验之间符合 i.i.d (独立同分布) 的概率分布。简单而言，可以假想如下情形：同一枚硬币抛 $n$ 次，硬币有 $k$ 次朝上的概率分布。
$P(X = k) = C_{n}^{k}p^{k}(1-p)^{n-k}$

2) 哪几个分布很重要？为什么它们很重要？

虽然有很多分布(eg. dirichlet distribution/beta distribution…)没怎么听说，但其实是很重要的。那么，在本科 Probability and Statistics 的课程中反复提及的 Bernouli distribution, Binomial distribution, Poisson distribution, Gaussian distribution ,Chi-square distribution, 其重要性可以说是不言而喻了。

关于为什么它们很重要这个问题，个人理解，是因为这些分布有如下性质：数学性质好，成体系(可互相转化)

Gaussian distribution：高斯分布之所以很重要，是因为有中心极限定理(Central limit theorem) 的存在，使得它在所有分布中占据核心的地位。
Bernouli distribution and Binomial distribution：我们可以说 Bernouli distribution 是 Binomial distribution 的特殊情况。
Poisson distribution and Binomial distribution：Poisson distribution 可以由 Binomial distribution 推导而来。但请注意，这个推导并不是想象中那么直接明了。因为满足 Binomial distribution 的随机变量是离散的(discrete r.v.)，而满足 Poisson distribution 的随机变量是连续的(continuous r.v.)。换言之，这个推导过程，模糊了随机变量其离散和连续的界限。

3）一些关于Gaussian distribution的内容

Gaussian distribution 的另外一种形式：

$\frac{1}{\sqrt{2\pi \sigma ^2}}e^{-\frac{(x-\mu)^2}{2\sigma ^2}} =\frac{1}{\sqrt{2\pi \sigma ^{2} e^{\frac{x-\mu}{\sigma}}}}$

z-score：
- Define as how many standard deviation away from mean.
- Can be used in any distribution.
skew：衡量对称程度的量值。positive(right) skew 为右长尾；negative(left) skew：左长尾；