统计学基础

常见概念

样本二重性

样本是从整体中随机抽取的。 抽取前无法预知数值。因此,样本是随机变量 X 1 , X 2 , . . . , X n X_1, X_2, ..., X_n X1,X2,...,Xn. 另一方面,样本抽取经过观测之后就有确定观测值,用 x 1 , x 2 , . . . , x n x_1, x_2, ..., x_n x1,x2,...,xn 表示

样本和总体 (Sample and population)

N is all samples
总体
u u u: Population mean = ∑ i = 1 N x i N \frac{\sum_{i=1}^{N}{x_i}}{N} Ni=1Nxi,
σ 2 \sigma^2 σ2: Population variance = ∑ i = 1 N ( x i − u ) 2 N \frac{ \sum_{i=1}^N(x_i - u)^2 } {N} Ni=1N(xiu)2
σ \sigma σ: Standard deviration = σ = σ 2 \sigma = \sqrt {\sigma^2} σ=σ2

样本
x ˉ \bar x xˉ: Sample mean = ∑ i = 1 n X i n \frac{\sum_{i=1}^{n}{X_i}}{n} ni=1nXi, n samples
S 2 S^2 S2 : Sample Variance = ∑ i = 1 n ( X i − X ˉ ) 2 n − 1 \frac{\sum_{i=1}^n (X_i - \bar X)^2} {n-1} n1i=1n(XiXˉ)2
s s s: Standard deviration : S = S 2 S = \sqrt {S^2} S=S2

随机模拟法 (蒙特卡洛法):

通过大量的重复实验,以频率估计概率,即可求得概率中未知参数的解

大数定律

sample mean of n n n observations

X n ˉ = X 1 + X 2 + . . . + X n n \bar {X_n} = \frac{X_1 + X_2 + ... + X_n} {n} Xnˉ=nX1+X2+...+Xn

for n − > ∞ n -> \infty n> , X n ˉ − > E ( X ) \bar {X_n} -> E(X) Xnˉ>E(X), Population mean

即当样本数据无限大时,样本均值趋于总体均值. 大数定律告诉我们能用频率近似代替概率;能用样本均值近似代替总体均值。

中心极限定理 (Central Limit Theorem)

中心极限定理指的是给定一个任意分布的总体。我每次从这些总体中随机抽取 n 个抽样,一共抽 m 次。 然后把这 m 组抽样分别求出平均值。 这些平均值的分布接近正态分布。
其中要注意的几点:

  • 总体本身的分布不要求正态分布
  • 样本每组要足够大,但也不需要太大

随机变量及其分布

常见离散分布

伯努利分布 (bernouil distribution)

一个非常简单的试验是只有两个可能结果的试验,比如正面或反面,成功或失败,、为方便起见,记这两个可能的结果为0和1。
如果随机变量X只取0和1两个值,并且相应的概率为:
P ( X = 1 ) = p , P ( X = 0 ) = 1 − p , 0 < p < 1 P(X=1) = p, P(X=0) = 1-p, 0 < p < 1 P(X=1)=p,P(X=0)=1p,0<p<1

则称随机变量 X X X服从参数为 p p p的伯努利分布,则X的概率函数可写为:

f ( x ∣ p ) = { p x ( 1 − p ) ( 1 − x ) , x = 0 , 1 0 , e l s e f(x|p)=\left\{ \begin{aligned} p^x(1-p)^{(1-x)}, x=0,1 \\ 0, else \\ \end{aligned} \right. f(xp)={px(1p)(1x),x=0,10,else

E ( X ) = p E(X) = p E(X)=p
V a r ( X ) = p ( 1 − p ) Var(X) = p(1-p) Var(X)=p(1p)

二项分布 (binomial distribution)

在n次独立重复的伯努利试验中,设每次试验中事件A发生的概率为p。用X表示n重伯努利试验中事件A发生的次数,则X的可能取值为0,1,…,n,且对每一个k(0≤k≤n),事件{X=k}即为“n次试验中事件A恰好发生k次”,随机变量X的离散概率分布即为二项分布(Binomial Distribution)

n = 10, p = 30%, X: number of shots I make, 记 X ∼ b ( n , p ) X \sim b(n, p) Xb(n,p)
P ( X = k ) = C n k p k ( 1 − p ) n − k P(X=k) = C_n^kp^k(1-p)^{n-k} P(X=k)=Cnkpk(1p)nk
E ( X ) = n p E(X) = np E(X)=np

泊松分布 (Possion distribution)

一般用来描述单位时间的计数过程(例如衡量一个小时内有多少车经过)
X ∼ P ( λ ) X \sim P(\lambda) XP(λ)
P ( X = k ) = λ k k ! e − λ , k = 0 , 1 , 2 , . . . , λ > 0 P(X=k) = \frac{\lambda^k}{k!} e^{-\lambda}, k=0,1,2,..., \lambda > 0 P(X=k)=k!λkeλ,k=0,1,2,...,λ>0
E ( X ) = λ E(X) = \lambda E(X)=λ
V a r ( X ) = λ Var(X) = \lambda Var(X)=λ

泊松分布是二项分布极限的情况:
E ( X ) = λ = n p E(X) = \lambda = np E(X)=λ=np , 其中n是次数,p为成功率 。 有 p = λ / n p = \lambda / n p=λ/n
我们把一段时间切分成无限个小段

p ( X = k ) = l i m n − > ∞ C n k ( λ n ) k ( 1 − λ n ) n − k = l i m n − > ∞ n ! ( n − k ) ! k ! λ k n k ( 1 − λ n ) n ( 1 − λ n ) − k = l i m n − > ∞ n ( n − 1 ) . . . ( n − k + 1 ) k ! λ k n k ( 1 − λ n ) n ( 1 − λ n ) − k = l i m n − > ∞ λ k k ! e − λ p(X=k) = \underset{n->\infty}{lim}C_n^k(\frac{\lambda}{n})^k (1-\frac{\lambda}{n})^{n-k} \\ = \underset{n->\infty}{lim} \frac{n!} {(n-k)!k!} \frac{\lambda^k}{n^k}(1-\frac{\lambda}{n})^n(1-\frac{\lambda}{n})^{-k} \\ = \underset{n->\infty}{lim} \frac{n(n-1)...(n-k+1)}{k!} \frac{\lambda^k}{n^k}(1-\frac{\lambda}{n})^n(1-\frac{\lambda}{n})^{-k} \\ = \underset{n->\infty}{lim} \frac{\lambda^k}{k!} e^{-\lambda} p(X=k)=n>limCnk(nλ)k(1nλ)nk=n>lim(nk)!k!n!nkλk(1nλ)n(1nλ)k=n>limk!n(n1)...(nk+1)nkλk(1nλ)n(1nλ)k=n>limk!λkeλ

Tools: l i m n − > ∞ ( 1 + a / x ) x = e a \underset{n->\infty}{lim} (1 + a/x)^x = e^a n>lim(1+a/x)x=ea

常见连续分布

高斯分布 (Gaussian Distribution; Normal distribution)

X ∼ N ( u , σ ) X \sim N(u, \sigma) XN(u,σ)

P ( X ) = 1 2 π σ 2 e x p ( − ( x − u ) 2 2 σ 2 ) P(X) = \frac{1}{\sqrt{2\pi \sigma^2}} exp (-\frac{(x-u)^2}{2\sigma^2}) P(X)=2πσ2 1exp(2σ2(xu)2)

z-score: how many σ \sigma σ away from the u u u , x − u σ \frac{x-u}{\sigma} σxu

多维高斯分布:
对数正态分布 (log normal distribution)

l n ( X ) ∼ N ( u , σ 2 ) , ln(X) \sim N(u, \sigma^2), ln(X)N(u,σ2),

f ( x , u , σ ) = 1 2 π σ 2 e x p ( − ( l n x − u ) 2 2 σ 2 ) f(x, u,\sigma) = \frac{1}{\sqrt{2\pi \sigma^2}} exp (-\frac{(lnx-u)^2}{2\sigma^2}) f(x,u,σ)=2πσ2 1exp(2σ2(lnxu)2)

指数分布

指数分布(也称为负指数分布)是描述泊松过程中的事件之间的时间的概率分布,即事件以恒定平均速率连续且独立地发生的过程。
f ( x ) = { λ e − λ x , x > 0 0 , x < = 0 f(x)=\left\{ \begin{aligned} \lambda e^{-\lambda x}, x>0 \\ 0, x<=0 \\ \end{aligned} \right. f(x)={λeλx,x>00,x<=0

E ( X ) = 1 λ E(X) = \frac{1}{\lambda} E(X)=λ1
V a r ( X ) = 1 λ 2 Var(X) = \frac{1}{\lambda^2} Var(X)=λ21

其中 λ > 0 \lambda > 0 λ>0 是分布的一个参数,常被称为率参数(rate parameter)。即每单位时间内发生某事件的次数。指数分布的区间是 [ 0 , ∞ ) [0,∞) [0,)。 如果一个随机变量X呈指数分布,则可以写作: X ∼ E ( λ ) X \sim E(\lambda) XE(λ)

指数分布是一种偏态分布,而且随机变量只可以取非负实数。所以指数分布常用作各种寿命的分布

样本均值的抽样分布

  1. firsrt we have a discrete distribution
    P ( X = 1 ) = 0.2 , P ( X = 3 ) = 0.3 , P ( X = 4 ) = 0.3 , P ( X = 6 ) = 0.2 P(X=1) = 0.2, P(X=3)=0.3, P(X=4)=0.3, P(X=6)=0.2 P(X=1)=0.2,P(X=3)=0.3,P(X=4)=0.3,P(X=6)=0.2
  2. Sample 4 numbers a time
  3. Sample N times
    • [1,1, 3, 6] -> mean: 2.75
    • [3,4,6,1] -> mean: 3.5
  4. mean vaue distribution: When N is small, not likely as normal distribution; But as Sample Size l i m N − > ∞ \underset{N->\infty}{lim} N>lim, the mean value distribution is normal distribution. (central limit theorem)

ex: Start with a crazy distribution with u , σ u, \sigma u,σ

样本均值的抽样分布方差 σ x ^ 2 \sigma^2_{\hat{x}} σx^2, 均值 u x ^ u_{\hat{x}} ux^

σ x ^ 2 = σ 2 n \sigma^2_{\hat{x}} = \frac{\sigma^2}{n} σx^2=nσ2
u x ^ = u u_{\hat{x}} = u ux^=u

协方差及相关系数

方差

  • 总体方差:
    σ X 2 = ∑ ( X − μ ) 2 N \sigma_X^2 = \frac{\sum(X - \mu)^2}{N} σX2=N(Xμ)2
  • 样本方差:
    S X 2 = ∑ ( X − X ˉ ) 2 n − 1 S_X^2 = \frac{\sum(X - \bar{X})^2}{n-1} SX2=n1(XXˉ)2

协方差:

C O V ( X , Y ) = E [ ( X − E ( X ) ) ( Y − E ( Y ) ) ] COV(X, Y) = E[(X - E(X))(Y-E(Y))] COV(X,Y)=E[(XE(X))(YE(Y))]
C O V ( X , X ) = V A R ( X ) COV(X, X) = VAR(X) COV(X,X)=VAR(X)

相关系数

c o r r ( X , Y ) = C O V ( X , Y ) V A R ( X ) V A R ( Y ) = C O V ( X , Y ) σ X σ Y corr(X, Y) = \frac{COV(X, Y)}{\sqrt{VAR(X)} \sqrt{VAR(Y)}} = \frac{COV(X, Y)}{ \sigma_X \sigma_Y} corr(X,Y)=VAR(X) VAR(Y) COV(X,Y)=σXσYCOV(X,Y)

C O V ( X , Y ) > 0 COV(X, Y) > 0 COV(X,Y)>0, 则X与Y正相关,X和Y有同时增大或减小的倾向
C O V ( X , Y ) < 0 COV(X, Y) < 0 COV(X,Y)<0, 则X与Y正相关,X和Y有反向变化的倾向
C O V ( X , Y ) = 0 COV(X, Y) = 0 COV(X,Y)=0, 则X与Y不相关,可能存在非线性关系

相关系数是一个解释量,它是相应标准变化量的协方差

X ∗ = X − u X σ X , Y ∗ = Y − u Y σ Y X^* = \frac{X-u_X}{\sigma_X}, Y^*=\frac{Y-u_Y}{\sigma_Y} X=σXXuX,Y=σYYuY

C O V ( X ∗ , Y ∗ ) = C O V ( X − u X σ X , Y − u Y σ Y ) = C O V ( X , Y ) σ X σ Y COV(X^*, Y^*) = COV(\frac{X-u_X}{\sigma_X}, \frac{Y-u_Y}{\sigma_Y}) = \frac{COV(X, Y)}{ \sigma_X \sigma_Y} COV(X,Y)=COV(σXXuX,σYYuY)=σXσYCOV(X,Y)

标准误(stand erorr)

  • 样本容量为n的标准误差是样本的标准差除以sqrt(n)

S E ( X ) = σ ( X ) n SE(X) = \frac { \sigma(X)}{\sqrt{n}} SE(X)=n σ(X)

K阶矩

  • k阶原点矩 : u k = E [ ( X k ) ] u_k = E[(X^k)] uk=E[(Xk)]
  • k阶中心矩: v k = E [ ( X − E ( X ) ) k ] v_k = E[(X - E(X))^k] vk=E[(XE(X))k]

变异系数 (coefficient of variation): 标准差与平均值之比 σ u \frac{\sigma}{u} uσ
偏度系数 (Skewness):用三阶中心矩除以标准差的三次方来度量偏斜程度 v 3 σ 3 \frac{v_3}{\sigma^3} σ3v3
峰度系数 (kurtosis):四阶中心矩除以二阶段中心矩阵 - 3 .
v 4 v 2 − 3 \frac{v_4}{v_2} - 3 v2v43

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值