期望
- E [ a ] = a E[a]=a E[a]=a
- E [ a X ] = a E [ X ] E[aX]=aE[X] E[aX]=aE[X]
- E [ X + Y ] = E [ X ] + E [ Y ] E[X+Y]=E[X]+E[Y] E[X+Y]=E[X]+E[Y]
- E [ X , Y ] = E [ X ] E [ Y ] E[X,Y]=E[X]E[Y] E[X,Y]=E[X]E[Y] 当且仅当 Cov [ X , Y ] = 0 \operatorname{Cov}[X,Y]=0 Cov[X,Y]=0
- E [ Y ] = E [ E ( Y ∣ X ) ] E[Y]=E[E(Y|X)] E[Y]=E[E(Y∣X)](全期望公式)
- E 2 [ X Y ] ≤ E [ X 2 ] E [ Y 2 ] E^2[XY]\leq E[X^2]E[Y^2] E2[XY]≤E[X2]E[Y2](柯西-施瓦茨不等式)
方差
- Var [ a ] = D [ a ] = 0 \operatorname{Var}[a]=D[a]=0 Var[a]=D[a]=0
- D [ a X ] = a 2 D [ X ] D[aX]=a^2D[X] D[aX]=a2D[X]
- D [ X ] = E [ ( X − E [ X ] ) 2 ] = E [ X 2 ] − E 2 [ X ] D[X]=E[(X-E[X])^2]=E[X^2]-E^2[X] D[X]=E[(X−E[X])2]=E[X2]−E2[X]
- D [ a X + b Y ] = a 2 D [ X ] + b 2 D [ Y ] + 2 a b Cov [ X , Y ] D[aX+bY]=a^2D[X]+b^2D[Y]+2ab\operatorname{Cov}[X,Y] D[aX+bY]=a2D[X]+b2D[Y]+2abCov[X,Y]
- Var ( ∑ i = 1 N X i ) = ∑ i , j = 1 N Cov ( X i , X j ) = ∑ i = 1 N Var ( X i ) + ∑ i ≠ j Cov ( X i , X j ) \operatorname{Var}\left(\sum_{i=1}^{N} X_{i}\right)=\sum_{i, j=1}^{N} \operatorname{Cov}\left(X_{i}, X_{j}\right)=\sum_{i=1}^{N} \operatorname{Var}\left(X_{i}\right)+\sum_{i \neq j} \operatorname{Cov}\left(X_{i}, X_{j}\right) Var(∑i=1NXi)=∑i,j=1NCov(Xi,Xj)=∑i=1NVar(Xi)+∑i=jCov(Xi,Xj)
- Var ( ∑ i = 1 N a i X i ) = ∑ i , j = 1 N a i a j Cov ( X i , X j ) \operatorname{Var}\left(\sum_{i=1}^{N} a_{i} X_{i}\right)=\sum_{i, j=1}^{N} a_{i} a_{j} \operatorname{Cov}\left(X_{i}, X_{j}\right) Var(∑i=1NaiXi)=∑i,j=1NaiajCov(Xi,Xj), a i a_i ai 为常数, X i X_i Xi 为随机变量
协方差
- Cov [ X , Y ] = E [ { X − E [ X ] } { Y − E [ Y ] } ] = E [ X Y ] − E [ X ] E [ Y ] \operatorname{Cov}[X,Y]=E[\{X-E[X]\}\{Y-E[Y]\}]=E[XY]-E[X]E[Y] Cov[X,Y]=E[{X−E[X]}{Y−E[Y]}]=E[XY]−E[X]E[Y]
- ∣ Cov [ X , Y ] ∣ ≤ Var [ X ] Var [ Y ] |\operatorname{Cov}[X,Y]|\leq \sqrt{\operatorname{Var}[X]\operatorname{Var}[Y]} ∣Cov[X,Y]∣≤Var[X]Var[Y]
- 若 Cov [ X , Y ] = 0 \operatorname{Cov}[X,Y]=0 Cov[X,Y]=0,则 E [ X Y ] = E [ X ] E [ Y ] E[XY]=E[X]E[Y] E[XY]=E[X]E[Y]
- Cov [ X , Y + Z ] = Cov [ X , Y ] + Cov [ X , Z ] \operatorname{Cov}[X,Y+Z]=\operatorname{Cov}[X,Y]+\operatorname{Cov}[X,Z] Cov[X,Y+Z]=Cov[X,Y]+Cov[X,Z]
- Cov [ a X , Y ] = Cov [ X , a Y ] = a Cov [ X , Y ] \operatorname{Cov}[aX,Y]=\operatorname{Cov}[X,aY]=a\operatorname{Cov}[X,Y] Cov[aX,Y]=Cov[X,aY]=aCov[X,Y]
相关系数
- ρ ( X , Y ) = Cov [ X , Y ] Var [ X ] Var [ Y ] \rho(X,Y)=\displaystyle\frac{\operatorname{Cov}[X,Y]}{\sqrt{\operatorname{Var}[X]\operatorname{Var}[Y]}} ρ(X,Y)=Var[X]Var[Y]Cov[X,Y]
- ρ ( X , Y ) \rho(X,Y) ρ(X,Y) 表示 X X X 和 Y Y Y 线性关系的大小和方向,且只能反映出线性关系
- ρ ( X , Y ) = 1 ⟺ \rho(X,Y)=1\Longleftrightarrow ρ(X,Y)=1⟺ Y Y Y 随 X X X 变大而线性增长
- ρ ( X , Y ) = − 1 ⟺ \rho(X,Y)=-1\Longleftrightarrow ρ(X,Y)=−1⟺ Y Y Y 随 X X X 变小而线性下降
-
ρ
(
X
,
Y
)
=
0
⟺
\rho(X,Y)=0\Longleftrightarrow
ρ(X,Y)=0⟺
Y
Y
Y 与
X
X
X 无线性关系
- 令 Y = a + b X + Z Y=a+bX+Z Y=a+bX+Z,其中 a 、 b a、b a、b 为常数, Z Z Z 为随机变量且与 X X X 无关
- ρ ( X , Y ) = b b 2 + σ Z 2 / σ X 2 = 0 \rho(X,Y)=\displaystyle\frac{b}{\sqrt{b^2+\sigma^2_Z/\sigma^2_X}}=0 ρ(X,Y)=b2+σZ2/σX2b=0,即 b = 0 b=0 b=0
独立与不相关
- 不相关指 Cov [ X , Y ] = 0 \operatorname{Cov}[X,Y]=0 Cov[X,Y]=0,即 X X X 与 Y Y Y 非线性关系, E [ X Y ] = E [ X ] E [ Y ] E[XY]=E[X]E[Y] E[XY]=E[X]E[Y]
- 独立指 P [ X Y ] = P [ X ] P [ Y ] P[XY]=P[X]P[Y] P[XY]=P[X]P[Y]
协方差矩阵
- X = [ X 1 , X 2 , . . . , X n ] T X=[X_1,X_2,...,X_n]^T X=[X1,X2,...,Xn]T
- μ = [ μ 1 , μ 2 , . . . , μ n ] T \mu=[\mu_1,\mu_2,...,\mu_n]^T μ=[μ1,μ2,...,μn]T
- ∑ = E [ ( X − μ ) ( X − μ ) T ] \sum=E[(X-\mu)(X-\mu)^T] ∑=E[(X−μ)(X−μ)T]
- 对称矩阵
- 半正定矩阵,且特征值
≥
0
\geq 0
≥0,行列式
≥
0
\geq 0
≥0
- ∀ y ∈ R n , y T ∑ y = E [ y T ( X − μ ) ( X − μ ) T y ] \forall y\in \mathbb{R^n},y^T\sum y=E[y^T(X-\mu)(X-\mu)^Ty] ∀y∈Rn,yT∑y=E[yT(X−μ)(X−μ)Ty]
- y T ∑ y = E [ ( ( X − μ ) T y ) T ( ( X − μ ) T y ) ] = E [ ∣ ∣ ( X − μ ) T y ∣ ∣ 2 2 ] ≥ 0 y^T\sum y=E[((X-\mu)^Ty)^T((X-\mu)^Ty)]=E[||(X-\mu)^Ty||^2_2]\geq 0 yT∑y=E[((X−μ)Ty)T((X−μ)Ty)]=E[∣∣(X−μ)Ty∣∣22]≥0
- ∣ ∑ i j ∣ ≤ ∑ i i ∑ j j |\sum_{ij}|\leq \sum_{ii}\sum_{jj} ∣∑ij∣≤∑ii∑jj
样本估计量
假设样本真实均值与方差为 μ , σ \mu,\sigma μ,σ
样本均值
μ = E [ X ˉ ] = E [ 1 n ∑ i = 1 n X i ] = 1 n ∑ i = 1 n E [ X i ] = 1 n ∑ i = 1 n μ = μ \mu=E[\bar{X}]=E[\frac{1}{n}\sum_{i=1}^nX_i]=\frac{1}{n}\sum_{i=1}^nE[X_i]=\frac{1}{n}\sum_{i=1}^n\mu=\mu μ=E[Xˉ]=E[n1i=1∑nXi]=n1i=1∑nE[Xi]=n1i=1∑nμ=μ
样本方差
公式:
σ
2
=
E
[
(
X
−
μ
)
2
]
=
E
[
S
2
]
=
E
[
1
n
∑
i
=
1
n
(
X
i
−
μ
)
2
]
=
E
[
1
n
−
1
∑
i
=
1
n
(
X
i
−
X
ˉ
)
2
]
\sigma^2=E[(X-\mu)^2]=E[S^2]=E[\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2]=E[\frac{1}{n-1}\sum_{i=1}^n (X_i-\bar{X})^2]
σ2=E[(X−μ)2]=E[S2]=E[n1i=1∑n(Xi−μ)2]=E[n−11i=1∑n(Xi−Xˉ)2]
推导:
E
[
S
2
]
=
E
[
1
n
∑
i
=
1
n
(
X
i
−
μ
)
2
]
=
E
[
1
n
∑
i
=
1
n
(
X
i
2
+
μ
2
−
2
μ
X
i
)
]
=
E
[
E
[
X
2
]
+
E
2
[
X
]
−
2
μ
E
[
X
]
]
=
E
[
X
2
]
−
E
2
[
X
]
=
σ
2
\begin{aligned} E[S^2]&=E[\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2]\\ &=E[\frac{1}{n}\sum_{i=1}^n(X_i^2+\mu^2-2\mu X_i)] \\ &=E[E[X^2]+E^2[X]-2\mu E[X]]\\ &=E[X^2]-E^2[X]\\ &=\sigma^2 \end{aligned}
E[S2]=E[n1i=1∑n(Xi−μ)2]=E[n1i=1∑n(Xi2+μ2−2μXi)]=E[E[X2]+E2[X]−2μE[X]]=E[X2]−E2[X]=σ2
E [ S 2 ] = E [ 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 ] = 1 n − 1 E [ ∑ i = 1 n ( ( X i − μ ) − ( X ˉ − μ ) ) 2 ] = 1 n − 1 E [ ∑ i = 1 n ( X i − μ ) 2 + n ( X ˉ − μ ) 2 − 2 ( X ˉ − μ ) ∑ i = 1 n ( X i − μ ) ] = 1 n − 1 E [ ∑ i = 1 n ( X i − μ ) 2 − n ( X ˉ − μ ) 2 ] = 1 n − 1 ( E [ ∑ i = 1 n ( X i − μ ) 2 ] − n E [ ( X ˉ − μ ) 2 ] ) = 1 n − 1 ( n σ 2 − n D [ X ˉ ] ) = 1 n − 1 ( n σ 2 − n 1 n 2 ∑ i = 1 n D [ X i ] ) = 1 n − 1 ( n σ 2 − σ 2 ) = σ 2 \begin{aligned} E[S^2]&=E[\frac{1}{n-1}\sum_{i=1}^n (X_i-\bar{X})^2]\\ &=\frac{1}{n-1}E[\sum_{i=1}^n((X_i-\mu)-(\bar{X}-\mu))^2]\\ &=\frac{1}{n-1}E[\sum_{i=1}^n(X_i-\mu)^2+n(\bar{X}-\mu)^2-2(\bar{X}-\mu)\sum_{i=1}^n(X_i-\mu)]\\ &=\frac{1}{n-1}E[\sum_{i=1}^n(X_i-\mu)^2-n(\bar{X}-\mu)^2]\\ &=\frac{1}{n-1}(E[\sum_{i=1}^n(X_i-\mu)^2]-nE[(\bar{X}-\mu)^2])\\ &=\frac{1}{n-1}(n\sigma^2-nD[\bar{X}])\\ &=\frac{1}{n-1}(n\sigma^2-n\frac{1}{n^2}\sum_{i=1}^nD[X_i])\\ &=\frac{1}{n-1}(n\sigma^2-\sigma^2)\\ &=\sigma^2 \end{aligned} E[S2]=E[n−11i=1∑n(Xi−Xˉ)2]=n−11E[i=1∑n((Xi−μ)−(Xˉ−μ))2]=n−11E[i=1∑n(Xi−μ)2+n(Xˉ−μ)2−2(Xˉ−μ)i=1∑n(Xi−μ)]=n−11E[i=1∑n(Xi−μ)2−n(Xˉ−μ)2]=n−11(E[i=1∑n(Xi−μ)2]−nE[(Xˉ−μ)2])=n−11(nσ2−nD[Xˉ])=n−11(nσ2−nn21i=1∑nD[Xi])=n−11(nσ2−σ2)=σ2
交叉验证 t 检验
原理
表格
点估计与区间估计
假设人类身高分布为正态分布,即 X ~ N ( μ , σ 2 ) X~N(\mu,\sigma^2) X~N(μ,σ2)。其中 μ \mu μ 和 σ \sigma σ 均为定值,但我们只知道 σ \sigma σ 的取值,现在想要使用抽样的方法来估计 μ \mu μ 的值。
假设我们抽样的数据为 ( x 1 , . . . , x N ) (x_1,...,x_N) (x1,...,xN),则我们可以用这组数据的均值来估计 μ \mu μ,即令估计值 μ ^ = X ˉ = 1 N ∑ i = 1 N x i \hat{\mu}=\bar{X}=\frac{1}{N}\sum_{i=1}^N x_i μ^=Xˉ=N1∑i=1Nxi,这种方法即为点估计。
点估计可以直接估计出具体数值,但对于估计误差没有度量,因此引入了区间估计的方法。
由于
X
~
N
(
μ
,
σ
2
)
X~N(\mu,\sigma^2)
X~N(μ,σ2) 是确定的,因此
X
ˉ
~
N
(
μ
,
σ
2
n
)
\bar{X}~N(\mu,\displaystyle\frac{\sigma^2}{n})
Xˉ~N(μ,nσ2) 也是确定的,所以我们可以得到:
P
(
−
1.96
σ
n
≤
X
ˉ
−
μ
≤
1.96
σ
n
)
P(\displaystyle\frac{-1.96\sigma}{\sqrt{n}}\leq \bar{X}-\mu\leq\displaystyle\frac{1.96\sigma}{\sqrt{n}})
P(n−1.96σ≤Xˉ−μ≤n1.96σ)
由此我们可以使用区间估计,即认为
μ
\mu
μ 在区间
[
X
ˉ
−
−
1.96
σ
n
,
X
ˉ
+
−
1.96
σ
n
]
[\bar{X}-\displaystyle\frac{-1.96\sigma}{\sqrt{n}},\bar{X}+\displaystyle\frac{-1.96\sigma}{\sqrt{n}}]
[Xˉ−n−1.96σ,Xˉ+n−1.96σ] 中,并且该区间的置信度为 95%。
对置信度通常有两种理解方式:
- μ \mu μ 落在给定区间的概率为 95%
- 每抽样一次,可以得到一个区间,抽样 100 次,则可以得到 100 个区间,其中大概有 95 个区间包含 μ \mu μ
第二种理解方式正确,第一种则不正确,因为 μ \mu μ 是定值而不是随机变量,因此 μ \mu μ 要么落在区间内,要么不落在区间内,没有「概率」一说。所以通常可以将「95% 置信度」理解为「有 95% 的把握认为区间内包含 μ \mu μ」。