常见概念
样本二重性
样本是从整体中随机抽取的。 抽取前无法预知数值。因此,样本是随机变量 X 1 , X 2 , . . . , X n X_1, X_2, ..., X_n X1,X2,...,Xn. 另一方面,样本抽取经过观测之后就有确定观测值,用 x 1 , x 2 , . . . , x n x_1, x_2, ..., x_n x1,x2,...,xn 表示
样本和总体 (Sample and population)
N is all samples
总体:
u
u
u: Population mean =
∑
i
=
1
N
x
i
N
\frac{\sum_{i=1}^{N}{x_i}}{N}
N∑i=1Nxi,
σ
2
\sigma^2
σ2: Population variance =
∑
i
=
1
N
(
x
i
−
u
)
2
N
\frac{ \sum_{i=1}^N(x_i - u)^2 } {N}
N∑i=1N(xi−u)2
σ
\sigma
σ: Standard deviration =
σ
=
σ
2
\sigma = \sqrt {\sigma^2}
σ=σ2
样本:
x
ˉ
\bar x
xˉ: Sample mean =
∑
i
=
1
n
X
i
n
\frac{\sum_{i=1}^{n}{X_i}}{n}
n∑i=1nXi, n samples
S
2
S^2
S2 : Sample Variance =
∑
i
=
1
n
(
X
i
−
X
ˉ
)
2
n
−
1
\frac{\sum_{i=1}^n (X_i - \bar X)^2} {n-1}
n−1∑i=1n(Xi−Xˉ)2
s
s
s: Standard deviration :
S
=
S
2
S = \sqrt {S^2}
S=S2
随机模拟法 (蒙特卡洛法):
通过大量的重复实验,以频率估计概率,即可求得概率中未知参数的解
大数定律
sample mean of n n n observations
X n ˉ = X 1 + X 2 + . . . + X n n \bar {X_n} = \frac{X_1 + X_2 + ... + X_n} {n} Xnˉ=nX1+X2+...+Xn
for n − > ∞ n -> \infty n−>∞ , X n ˉ − > E ( X ) \bar {X_n} -> E(X) Xnˉ−>E(X), Population mean
即当样本数据无限大时,样本均值趋于总体均值. 大数定律告诉我们能用频率近似代替概率;能用样本均值近似代替总体均值。
中心极限定理 (Central Limit Theorem)
中心极限定理指的是给定一个任意分布的总体。我每次从这些总体中随机抽取 n 个抽样,一共抽 m 次。 然后把这 m 组抽样分别求出平均值。 这些平均值的分布接近正态分布。
其中要注意的几点:
- 总体本身的分布不要求正态分布
- 样本每组要足够大,但也不需要太大
随机变量及其分布
常见离散分布
伯努利分布 (bernouil distribution)
一个非常简单的试验是只有两个可能结果的试验,比如正面或反面,成功或失败,、为方便起见,记这两个可能的结果为0和1。
如果随机变量X只取0和1两个值,并且相应的概率为:
P
(
X
=
1
)
=
p
,
P
(
X
=
0
)
=
1
−
p
,
0
<
p
<
1
P(X=1) = p, P(X=0) = 1-p, 0 < p < 1
P(X=1)=p,P(X=0)=1−p,0<p<1
则称随机变量 X X X服从参数为 p p p的伯努利分布,则X的概率函数可写为:
f ( x ∣ p ) = { p x ( 1 − p ) ( 1 − x ) , x = 0 , 1 0 , e l s e f(x|p)=\left\{ \begin{aligned} p^x(1-p)^{(1-x)}, x=0,1 \\ 0, else \\ \end{aligned} \right. f(x∣p)={px(1−p)(1−x),x=0,10,else
E
(
X
)
=
p
E(X) = p
E(X)=p
V
a
r
(
X
)
=
p
(
1
−
p
)
Var(X) = p(1-p)
Var(X)=p(1−p)
二项分布 (binomial distribution)
在n次独立重复的伯努利试验中,设每次试验中事件A发生的概率为p。用X表示n重伯努利试验中事件A发生的次数,则X的可能取值为0,1,…,n,且对每一个k(0≤k≤n),事件{X=k}即为“n次试验中事件A恰好发生k次”,随机变量X的离散概率分布即为二项分布(Binomial Distribution)
n = 10, p = 30%, X: number of shots I make, 记
X
∼
b
(
n
,
p
)
X \sim b(n, p)
X∼b(n,p)
P
(
X
=
k
)
=
C
n
k
p
k
(
1
−
p
)
n
−
k
P(X=k) = C_n^kp^k(1-p)^{n-k}
P(X=k)=Cnkpk(1−p)n−k
E
(
X
)
=
n
p
E(X) = np
E(X)=np
泊松分布 (Possion distribution)
一般用来描述单位时间的计数过程(例如衡量一个小时内有多少车经过)
X
∼
P
(
λ
)
X \sim P(\lambda)
X∼P(λ)
P
(
X
=
k
)
=
λ
k
k
!
e
−
λ
,
k
=
0
,
1
,
2
,
.
.
.
,
λ
>
0
P(X=k) = \frac{\lambda^k}{k!} e^{-\lambda}, k=0,1,2,..., \lambda > 0
P(X=k)=k!λke−λ,k=0,1,2,...,λ>0
E
(
X
)
=
λ
E(X) = \lambda
E(X)=λ
V
a
r
(
X
)
=
λ
Var(X) = \lambda
Var(X)=λ
泊松分布是二项分布极限的情况:
E
(
X
)
=
λ
=
n
p
E(X) = \lambda = np
E(X)=λ=np , 其中n是次数,p为成功率 。 有
p
=
λ
/
n
p = \lambda / n
p=λ/n
我们把一段时间切分成无限个小段
p ( X = k ) = l i m n − > ∞ C n k ( λ n ) k ( 1 − λ n ) n − k = l i m n − > ∞ n ! ( n − k ) ! k ! λ k n k ( 1 − λ n ) n ( 1 − λ n ) − k = l i m n − > ∞ n ( n − 1 ) . . . ( n − k + 1 ) k ! λ k n k ( 1 − λ n ) n ( 1 − λ n ) − k = l i m n − > ∞ λ k k ! e − λ p(X=k) = \underset{n->\infty}{lim}C_n^k(\frac{\lambda}{n})^k (1-\frac{\lambda}{n})^{n-k} \\ = \underset{n->\infty}{lim} \frac{n!} {(n-k)!k!} \frac{\lambda^k}{n^k}(1-\frac{\lambda}{n})^n(1-\frac{\lambda}{n})^{-k} \\ = \underset{n->\infty}{lim} \frac{n(n-1)...(n-k+1)}{k!} \frac{\lambda^k}{n^k}(1-\frac{\lambda}{n})^n(1-\frac{\lambda}{n})^{-k} \\ = \underset{n->\infty}{lim} \frac{\lambda^k}{k!} e^{-\lambda} p(X=k)=n−>∞limCnk(nλ)k(1−nλ)n−k=n−>∞lim(n−k)!k!n!nkλk(1−nλ)n(1−nλ)−k=n−>∞limk!n(n−1)...(n−k+1)nkλk(1−nλ)n(1−nλ)−k=n−>∞limk!λke−λ
Tools: l i m n − > ∞ ( 1 + a / x ) x = e a \underset{n->\infty}{lim} (1 + a/x)^x = e^a n−>∞lim(1+a/x)x=ea
常见连续分布
高斯分布 (Gaussian Distribution; Normal distribution)
X ∼ N ( u , σ ) X \sim N(u, \sigma) X∼N(u,σ)
P ( X ) = 1 2 π σ 2 e x p ( − ( x − u ) 2 2 σ 2 ) P(X) = \frac{1}{\sqrt{2\pi \sigma^2}} exp (-\frac{(x-u)^2}{2\sigma^2}) P(X)=2πσ21exp(−2σ2(x−u)2)
z-score: how many σ \sigma σ away from the u u u , x − u σ \frac{x-u}{\sigma} σx−u
多维高斯分布:
对数正态分布 (log normal distribution)
l n ( X ) ∼ N ( u , σ 2 ) , ln(X) \sim N(u, \sigma^2), ln(X)∼N(u,σ2),
f ( x , u , σ ) = 1 2 π σ 2 e x p ( − ( l n x − u ) 2 2 σ 2 ) f(x, u,\sigma) = \frac{1}{\sqrt{2\pi \sigma^2}} exp (-\frac{(lnx-u)^2}{2\sigma^2}) f(x,u,σ)=2πσ21exp(−2σ2(lnx−u)2)
指数分布
指数分布(也称为负指数分布)是描述泊松过程中的事件之间的时间的概率分布,即事件以恒定平均速率连续且独立地发生的过程。
f
(
x
)
=
{
λ
e
−
λ
x
,
x
>
0
0
,
x
<
=
0
f(x)=\left\{ \begin{aligned} \lambda e^{-\lambda x}, x>0 \\ 0, x<=0 \\ \end{aligned} \right.
f(x)={λe−λx,x>00,x<=0
E
(
X
)
=
1
λ
E(X) = \frac{1}{\lambda}
E(X)=λ1
V
a
r
(
X
)
=
1
λ
2
Var(X) = \frac{1}{\lambda^2}
Var(X)=λ21
其中 λ > 0 \lambda > 0 λ>0 是分布的一个参数,常被称为率参数(rate parameter)。即每单位时间内发生某事件的次数。指数分布的区间是 [ 0 , ∞ ) [0,∞) [0,∞)。 如果一个随机变量X呈指数分布,则可以写作: X ∼ E ( λ ) X \sim E(\lambda) X∼E(λ)
指数分布是一种偏态分布,而且随机变量只可以取非负实数。所以指数分布常用作各种寿命的分布
样本均值的抽样分布
- firsrt we have a discrete distribution
P ( X = 1 ) = 0.2 , P ( X = 3 ) = 0.3 , P ( X = 4 ) = 0.3 , P ( X = 6 ) = 0.2 P(X=1) = 0.2, P(X=3)=0.3, P(X=4)=0.3, P(X=6)=0.2 P(X=1)=0.2,P(X=3)=0.3,P(X=4)=0.3,P(X=6)=0.2 - Sample 4 numbers a time
- Sample N times
- [1,1, 3, 6] -> mean: 2.75
- [3,4,6,1] -> mean: 3.5
- …
- mean vaue distribution: When N is small, not likely as normal distribution; But as Sample Size l i m N − > ∞ \underset{N->\infty}{lim} N−>∞lim, the mean value distribution is normal distribution. (central limit theorem)
ex: Start with a crazy distribution with u , σ u, \sigma u,σ
样本均值的抽样分布方差 σ x ^ 2 \sigma^2_{\hat{x}} σx^2, 均值 u x ^ u_{\hat{x}} ux^
σ
x
^
2
=
σ
2
n
\sigma^2_{\hat{x}} = \frac{\sigma^2}{n}
σx^2=nσ2
u
x
^
=
u
u_{\hat{x}} = u
ux^=u
协方差及相关系数
方差:
- 总体方差:
σ X 2 = ∑ ( X − μ ) 2 N \sigma_X^2 = \frac{\sum(X - \mu)^2}{N} σX2=N∑(X−μ)2 - 样本方差:
S X 2 = ∑ ( X − X ˉ ) 2 n − 1 S_X^2 = \frac{\sum(X - \bar{X})^2}{n-1} SX2=n−1∑(X−Xˉ)2
协方差:
C
O
V
(
X
,
Y
)
=
E
[
(
X
−
E
(
X
)
)
(
Y
−
E
(
Y
)
)
]
COV(X, Y) = E[(X - E(X))(Y-E(Y))]
COV(X,Y)=E[(X−E(X))(Y−E(Y))]
C
O
V
(
X
,
X
)
=
V
A
R
(
X
)
COV(X, X) = VAR(X)
COV(X,X)=VAR(X)
相关系数
c o r r ( X , Y ) = C O V ( X , Y ) V A R ( X ) V A R ( Y ) = C O V ( X , Y ) σ X σ Y corr(X, Y) = \frac{COV(X, Y)}{\sqrt{VAR(X)} \sqrt{VAR(Y)}} = \frac{COV(X, Y)}{ \sigma_X \sigma_Y} corr(X,Y)=VAR(X)VAR(Y)COV(X,Y)=σXσYCOV(X,Y)
C
O
V
(
X
,
Y
)
>
0
COV(X, Y) > 0
COV(X,Y)>0, 则X与Y正相关,X和Y有同时增大或减小的倾向
C
O
V
(
X
,
Y
)
<
0
COV(X, Y) < 0
COV(X,Y)<0, 则X与Y正相关,X和Y有反向变化的倾向
C
O
V
(
X
,
Y
)
=
0
COV(X, Y) = 0
COV(X,Y)=0, 则X与Y不相关,可能存在非线性关系
相关系数是一个解释量,它是相应标准变化量的协方差
X ∗ = X − u X σ X , Y ∗ = Y − u Y σ Y X^* = \frac{X-u_X}{\sigma_X}, Y^*=\frac{Y-u_Y}{\sigma_Y} X∗=σXX−uX,Y∗=σYY−uY
C O V ( X ∗ , Y ∗ ) = C O V ( X − u X σ X , Y − u Y σ Y ) = C O V ( X , Y ) σ X σ Y COV(X^*, Y^*) = COV(\frac{X-u_X}{\sigma_X}, \frac{Y-u_Y}{\sigma_Y}) = \frac{COV(X, Y)}{ \sigma_X \sigma_Y} COV(X∗,Y∗)=COV(σXX−uX,σYY−uY)=σXσYCOV(X,Y)
标准误(stand erorr)
- 样本容量为n的标准误差是样本的标准差除以sqrt(n)
S E ( X ) = σ ( X ) n SE(X) = \frac { \sigma(X)}{\sqrt{n}} SE(X)=nσ(X)
K阶矩
- k阶原点矩 : u k = E [ ( X k ) ] u_k = E[(X^k)] uk=E[(Xk)]
- k阶中心矩: v k = E [ ( X − E ( X ) ) k ] v_k = E[(X - E(X))^k] vk=E[(X−E(X))k]
变异系数 (coefficient of variation): 标准差与平均值之比
σ
u
\frac{\sigma}{u}
uσ
偏度系数 (Skewness):用三阶中心矩除以标准差的三次方来度量偏斜程度
v
3
σ
3
\frac{v_3}{\sigma^3}
σ3v3
峰度系数 (kurtosis):四阶中心矩除以二阶段中心矩阵 - 3 .
v
4
v
2
−
3
\frac{v_4}{v_2} - 3
v2v4−3