统计学基础

Johnson0722

已于 2022-05-19 09:59:12 修改

阅读量509

点赞数 1

分类专栏：数理统计文章标签：概率论机器学习人工智能

于 2021-06-12 22:33:46 首次发布

本文链接：https://blog.csdn.net/John_xyz/article/details/117856142

版权

数理统计专栏收录该内容

1 篇文章 0 订阅

订阅专栏

常见概念

样本二重性

样本是从整体中随机抽取的。抽取前无法预知数值。因此，样本是随机变量 $X_1, X_2, ..., X_n$ . 另一方面，样本抽取经过观测之后就有确定观测值，用 $x_1, x_2, ..., x_n$ 表示

样本和总体（Sample and population）

N is all samples
总体：
$u$ : Population mean = $\frac{\sum_{i=1}^{N}{x_i}}{N}$ ,
$\sigma^2$ : Population variance = $\frac{ \sum_{i=1}^N(x_i - u)^2 } {N}$
$\sigma$ : Standard deviration = $\sigma = \sqrt {\sigma^2}$

样本：
$\bar x$ : Sample mean = $\frac{\sum_{i=1}^{n}{X_i}}{n}$ , n samples
$S^2$ : Sample Variance = $\frac{\sum_{i=1}^n (X_i - \bar X)^2} {n-1}$
$s$ : Standard deviration : $\sqrt {S^2}$

随机模拟法（蒙特卡洛法）：

通过大量的重复实验，以频率估计概率，即可求得概率中未知参数的解

大数定律

sample mean of $n$ observations

$\bar {X_n} = \frac{X_1 + X_2 + ... + X_n} {n}$

for $\infty$ , $\bar {X_n} -> E(X)$ , Population mean

即当样本数据无限大时，样本均值趋于总体均值. 大数定律告诉我们能用频率近似代替概率；能用样本均值近似代替总体均值。

中心极限定理（Central Limit Theorem）

中心极限定理指的是给定一个任意分布的总体。我每次从这些总体中随机抽取 n 个抽样，一共抽 m 次。然后把这 m 组抽样分别求出平均值。这些平均值的分布接近正态分布。
其中要注意的几点：

总体本身的分布不要求正态分布
样本每组要足够大，但也不需要太大

随机变量及其分布

常见离散分布

伯努利分布 (bernouil distribution)

一个非常简单的试验是只有两个可能结果的试验，比如正面或反面，成功或失败，、为方便起见，记这两个可能的结果为0和1。
如果随机变量X只取0和1两个值，并且相应的概率为：
$P (X = 1) = p, P (X = 0) = 1 - p, 0 < p < 1$

则称随机变量 $X$ 服从参数为 $p$ 的伯努利分布，则X的概率函数可写为：

$f(x|p)=\left\{ \begin{aligned} p^x(1-p)^{(1-x)}, x=0,1 \\ 0, else \\ \end{aligned} \right.$

$E (X) = p$
$V a r (X) = p (1 - p)$

二项分布 (binomial distribution)

在n次独立重复的伯努利试验中，设每次试验中事件A发生的概率为p。用X表示n重伯努利试验中事件A发生的次数，则X的可能取值为0，1，…，n,且对每一个k（0≤k≤n）,事件{X=k}即为“n次试验中事件A恰好发生k次”，随机变量X的离散概率分布即为二项分布（Binomial Distribution)

n = 10, p = 30%, X: number of shots I make, 记 $\sim b(n, p)$
$P(X=k) = C_n^kp^k(1-p)^{n-k}$
$E (X) = n p$

泊松分布 (Possion distribution)

一般用来描述单位时间的计数过程(例如衡量一个小时内有多少车经过)
$\sim P(\lambda)$
$\frac{\lambda^k}{k!} e^{-\lambda}, k=0,1,2,..., \lambda > 0$
$\lambda$
$\lambda$

泊松分布是二项分布极限的情况：
$\lambda = np$ ，其中n是次数，p为成功率。有 $\lambda / n$
我们把一段时间切分成无限个小段

$\underset{n->\infty}{lim}C_n^k(\frac{\lambda}{n})^k (1-\frac{\lambda}{n})^{n-k} \\ = \underset{n->\infty}{lim} \frac{n!} {(n-k)!k!} \frac{\lambda^k}{n^k}(1-\frac{\lambda}{n})^n(1-\frac{\lambda}{n})^{-k} \\ = \underset{n->\infty}{lim} \frac{n(n-1)...(n-k+1)}{k!} \frac{\lambda^k}{n^k}(1-\frac{\lambda}{n})^n(1-\frac{\lambda}{n})^{-k} \\ = \underset{n->\infty}{lim} \frac{\lambda^k}{k!} e^{-\lambda}$

Tools: $\underset{n->\infty}{lim} (1 + a/x)^x = e^a$

常见连续分布

高斯分布 (Gaussian Distribution; Normal distribution)

$\sim N(u, \sigma)$

$\frac{1}{\sqrt{2\pi \sigma^2}} exp (-\frac{(x-u)^2}{2\sigma^2})$

z-score: how many $\sigma$ away from the $u$ , $\frac{x-u}{\sigma}$

多维高斯分布：

对数正态分布 (log normal distribution)

$\sim N(u, \sigma^2),$

$u,\sigma) = \frac{1}{\sqrt{2\pi \sigma^2}} exp (-\frac{(lnx-u)^2}{2\sigma^2})$

指数分布

指数分布（也称为负指数分布）是描述泊松过程中的事件之间的时间的概率分布，即事件以恒定平均速率连续且独立地发生的过程。
$f(x)=\left\{ \begin{aligned} \lambda e^{-\lambda x}, x>0 \\ 0, x<=0 \\ \end{aligned} \right.$

$\frac{1}{\lambda}$
$\frac{1}{\lambda^2}$

其中 $\lambda > 0$ 是分布的一个参数，常被称为率参数（rate parameter）。即每单位时间内发生某事件的次数。指数分布的区间是 $[0, \infty)$ 。如果一个随机变量X呈指数分布，则可以写作： $\sim E(\lambda)$

指数分布是一种偏态分布，而且随机变量只可以取非负实数。所以指数分布常用作各种寿命的分布

样本均值的抽样分布

firsrt we have a discrete distribution
$P (X = 1) = 0.2, P (X = 3) = 0.3, P (X = 4) = 0.3, P (X = 6) = 0.2$
Sample 4 numbers a time
Sample N times
- [1,1, 3, 6] -> mean: 2.75
- [3,4,6,1] -> mean: 3.5
- …
mean vaue distribution: When N is small, not likely as normal distribution; But as Sample Size $\underset{N->\infty}{lim}$ , the mean value distribution is normal distribution. (central limit theorem)

ex: Start with a crazy distribution with $\sigma$

样本均值的抽样分布方差 $\sigma^2_{\hat{x}}$ , 均值 $u_{\hat{x}}$

$\sigma^2_{\hat{x}} = \frac{\sigma^2}{n}$
$u_{\hat{x}} = u$

协方差及相关系数

方差：

总体方差：
$\sigma_X^2 = \frac{\sum(X - \mu)^2}{N}$
样本方差：
$S_X^2 = \frac{\sum(X - \bar{X})^2}{n-1}$

协方差:

$C O V (X, Y) = E [(X - E (X)) (Y - E (Y))]$
$C O V (X, X) = V A R (X)$

相关系数

$\frac{COV(X, Y)}{\sqrt{VAR(X)} \sqrt{VAR(Y)}} = \frac{COV(X, Y)}{ \sigma_X \sigma_Y}$

$C O V (X, Y) > 0$ ，则X与Y正相关，X和Y有同时增大或减小的倾向
$C O V (X, Y) < 0$ ，则X与Y正相关，X和Y有反向变化的倾向
$C O V (X, Y) = 0$ ，则X与Y不相关，可能存在非线性关系

相关系数是一个解释量，它是相应标准变化量的协方差

$X^* = \frac{X-u_X}{\sigma_X}, Y^*=\frac{Y-u_Y}{\sigma_Y}$

$COV(X^*, Y^*) = COV(\frac{X-u_X}{\sigma_X}, \frac{Y-u_Y}{\sigma_Y}) = \frac{COV(X, Y)}{ \sigma_X \sigma_Y}$

标准误(stand erorr)

样本容量为n的标准误差是样本的标准差除以sqrt(n)

$\frac { \sigma(X)}{\sqrt{n}}$

K阶矩

k阶原点矩 : $u_k = E[(X^k)]$
k阶中心矩: $v_k = E[(X - E(X))^k]$

变异系数 (coefficient of variation)：标准差与平均值之比 $\frac{\sigma}{u}$
偏度系数 (Skewness)：用三阶中心矩除以标准差的三次方来度量偏斜程度 $\frac{v_3}{\sigma^3}$
峰度系数 (kurtosis)：四阶中心矩除以二阶段中心矩阵 - 3 .
$\frac{v_4}{v_2} - 3$