【概率论】期望、方差、协方差、相关系数、相关与独立、样本估计量、点估计、区间估计

期望

  • E [ a ] = a E[a]=a E[a]=a
  • E [ a X ] = a E [ X ] E[aX]=aE[X] E[aX]=aE[X]
  • E [ X + Y ] = E [ X ] + E [ Y ] E[X+Y]=E[X]+E[Y] E[X+Y]=E[X]+E[Y]
  • E [ X , Y ] = E [ X ] E [ Y ] E[X,Y]=E[X]E[Y] E[X,Y]=E[X]E[Y] 当且仅当 Cov ⁡ [ X , Y ] = 0 \operatorname{Cov}[X,Y]=0 Cov[X,Y]=0
  • E [ Y ] = E [ E ( Y ∣ X ) ] E[Y]=E[E(Y|X)] E[Y]=E[E(YX)](全期望公式)
  • E 2 [ X Y ] ≤ E [ X 2 ] E [ Y 2 ] E^2[XY]\leq E[X^2]E[Y^2] E2[XY]E[X2]E[Y2](柯西-施瓦茨不等式)

方差

  • Var ⁡ [ a ] = D [ a ] = 0 \operatorname{Var}[a]=D[a]=0 Var[a]=D[a]=0
  • D [ a X ] = a 2 D [ X ] D[aX]=a^2D[X] D[aX]=a2D[X]
  • D [ X ] = E [ ( X − E [ X ] ) 2 ] = E [ X 2 ] − E 2 [ X ] D[X]=E[(X-E[X])^2]=E[X^2]-E^2[X] D[X]=E[(XE[X])2]=E[X2]E2[X]
  • D [ a X + b Y ] = a 2 D [ X ] + b 2 D [ Y ] + 2 a b Cov ⁡ [ X , Y ] D[aX+bY]=a^2D[X]+b^2D[Y]+2ab\operatorname{Cov}[X,Y] D[aX+bY]=a2D[X]+b2D[Y]+2abCov[X,Y]
  • Var ⁡ ( ∑ i = 1 N X i ) = ∑ i , j = 1 N Cov ⁡ ( X i , X j ) = ∑ i = 1 N Var ⁡ ( X i ) + ∑ i ≠ j Cov ⁡ ( X i , X j ) \operatorname{Var}\left(\sum_{i=1}^{N} X_{i}\right)=\sum_{i, j=1}^{N} \operatorname{Cov}\left(X_{i}, X_{j}\right)=\sum_{i=1}^{N} \operatorname{Var}\left(X_{i}\right)+\sum_{i \neq j} \operatorname{Cov}\left(X_{i}, X_{j}\right) Var(i=1NXi)=i,j=1NCov(Xi,Xj)=i=1NVar(Xi)+i=jCov(Xi,Xj)
  • Var ⁡ ( ∑ i = 1 N a i X i ) = ∑ i , j = 1 N a i a j Cov ⁡ ( X i , X j ) \operatorname{Var}\left(\sum_{i=1}^{N} a_{i} X_{i}\right)=\sum_{i, j=1}^{N} a_{i} a_{j} \operatorname{Cov}\left(X_{i}, X_{j}\right) Var(i=1NaiXi)=i,j=1NaiajCov(Xi,Xj) a i a_i ai 为常数, X i X_i Xi 为随机变量

协方差

  • Cov ⁡ [ X , Y ] = E [ { X − E [ X ] } { Y − E [ Y ] } ] = E [ X Y ] − E [ X ] E [ Y ] \operatorname{Cov}[X,Y]=E[\{X-E[X]\}\{Y-E[Y]\}]=E[XY]-E[X]E[Y] Cov[X,Y]=E[{XE[X]}{YE[Y]}]=E[XY]E[X]E[Y]
  • ∣ Cov ⁡ [ X , Y ] ∣ ≤ Var ⁡ [ X ] Var ⁡ [ Y ] |\operatorname{Cov}[X,Y]|\leq \sqrt{\operatorname{Var}[X]\operatorname{Var}[Y]} Cov[X,Y]Var[X]Var[Y]
  • Cov ⁡ [ X , Y ] = 0 \operatorname{Cov}[X,Y]=0 Cov[X,Y]=0,则 E [ X Y ] = E [ X ] E [ Y ] E[XY]=E[X]E[Y] E[XY]=E[X]E[Y]
  • Cov ⁡ [ X , Y + Z ] = Cov ⁡ [ X , Y ] + Cov ⁡ [ X , Z ] \operatorname{Cov}[X,Y+Z]=\operatorname{Cov}[X,Y]+\operatorname{Cov}[X,Z] Cov[X,Y+Z]=Cov[X,Y]+Cov[X,Z]
  • Cov ⁡ [ a X , Y ] = Cov ⁡ [ X , a Y ] = a Cov ⁡ [ X , Y ] \operatorname{Cov}[aX,Y]=\operatorname{Cov}[X,aY]=a\operatorname{Cov}[X,Y] Cov[aX,Y]=Cov[X,aY]=aCov[X,Y]

相关系数

  • ρ ( X , Y ) = Cov ⁡ [ X , Y ] Var ⁡ [ X ] Var ⁡ [ Y ] \rho(X,Y)=\displaystyle\frac{\operatorname{Cov}[X,Y]}{\sqrt{\operatorname{Var}[X]\operatorname{Var}[Y]}} ρ(X,Y)=Var[X]Var[Y] Cov[X,Y]
  • ρ ( X , Y ) \rho(X,Y) ρ(X,Y) 表示 X X X Y Y Y 线性关系的大小和方向,且只能反映出线性关系
  • ρ ( X , Y ) = 1 ⟺ \rho(X,Y)=1\Longleftrightarrow ρ(X,Y)=1 Y Y Y X X X 变大而线性增长
  • ρ ( X , Y ) = − 1 ⟺ \rho(X,Y)=-1\Longleftrightarrow ρ(X,Y)=1 Y Y Y X X X 变小而线性下降
  • ρ ( X , Y ) = 0 ⟺ \rho(X,Y)=0\Longleftrightarrow ρ(X,Y)=0 Y Y Y X X X 无线性关系
    • Y = a + b X + Z Y=a+bX+Z Y=a+bX+Z,其中 a 、 b a、b ab 为常数, Z Z Z 为随机变量且与 X X X 无关
    • ρ ( X , Y ) = b b 2 + σ Z 2 / σ X 2 = 0 \rho(X,Y)=\displaystyle\frac{b}{\sqrt{b^2+\sigma^2_Z/\sigma^2_X}}=0 ρ(X,Y)=b2+σZ2/σX2 b=0,即 b = 0 b=0 b=0

在这里插入图片描述

独立与不相关

  • 不相关指 Cov ⁡ [ X , Y ] = 0 \operatorname{Cov}[X,Y]=0 Cov[X,Y]=0,即 X X X Y Y Y 非线性关系, E [ X Y ] = E [ X ] E [ Y ] E[XY]=E[X]E[Y] E[XY]=E[X]E[Y]
  • 独立指 P [ X Y ] = P [ X ] P [ Y ] P[XY]=P[X]P[Y] P[XY]=P[X]P[Y]

在这里插入图片描述

协方差矩阵

  • X = [ X 1 , X 2 , . . . , X n ] T X=[X_1,X_2,...,X_n]^T X=[X1,X2,...,Xn]T
  • μ = [ μ 1 , μ 2 , . . . , μ n ] T \mu=[\mu_1,\mu_2,...,\mu_n]^T μ=[μ1,μ2,...,μn]T
  • ∑ = E [ ( X − μ ) ( X − μ ) T ] \sum=E[(X-\mu)(X-\mu)^T] =E[(Xμ)(Xμ)T]
  • 对称矩阵
  • 半正定矩阵,且特征值 ≥ 0 \geq 0 0,行列式 ≥ 0 \geq 0 0
    • ∀ y ∈ R n , y T ∑ y = E [ y T ( X − μ ) ( X − μ ) T y ] \forall y\in \mathbb{R^n},y^T\sum y=E[y^T(X-\mu)(X-\mu)^Ty] yRn,yTy=E[yT(Xμ)(Xμ)Ty]
    • y T ∑ y = E [ ( ( X − μ ) T y ) T ( ( X − μ ) T y ) ] = E [ ∣ ∣ ( X − μ ) T y ∣ ∣ 2 2 ] ≥ 0 y^T\sum y=E[((X-\mu)^Ty)^T((X-\mu)^Ty)]=E[||(X-\mu)^Ty||^2_2]\geq 0 yTy=E[((Xμ)Ty)T((Xμ)Ty)]=E[∣∣(Xμ)Ty22]0
  • ∣ ∑ i j ∣ ≤ ∑ i i ∑ j j |\sum_{ij}|\leq \sum_{ii}\sum_{jj} ijiijj

样本估计量

假设样本真实均值与方差为 μ , σ \mu,\sigma μ,σ

样本均值

μ = E [ X ˉ ] = E [ 1 n ∑ i = 1 n X i ] = 1 n ∑ i = 1 n E [ X i ] = 1 n ∑ i = 1 n μ = μ \mu=E[\bar{X}]=E[\frac{1}{n}\sum_{i=1}^nX_i]=\frac{1}{n}\sum_{i=1}^nE[X_i]=\frac{1}{n}\sum_{i=1}^n\mu=\mu μ=E[Xˉ]=E[n1i=1nXi]=n1i=1nE[Xi]=n1i=1nμ=μ

样本方差

公式:
σ 2 = E [ ( X − μ ) 2 ] = E [ S 2 ] = E [ 1 n ∑ i = 1 n ( X i − μ ) 2 ] = E [ 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 ] \sigma^2=E[(X-\mu)^2]=E[S^2]=E[\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2]=E[\frac{1}{n-1}\sum_{i=1}^n (X_i-\bar{X})^2] σ2=E[(Xμ)2]=E[S2]=E[n1i=1n(Xiμ)2]=E[n11i=1n(XiXˉ)2]

推导:
E [ S 2 ] = E [ 1 n ∑ i = 1 n ( X i − μ ) 2 ] = E [ 1 n ∑ i = 1 n ( X i 2 + μ 2 − 2 μ X i ) ] = E [ E [ X 2 ] + E 2 [ X ] − 2 μ E [ X ] ] = E [ X 2 ] − E 2 [ X ] = σ 2 \begin{aligned} E[S^2]&=E[\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2]\\ &=E[\frac{1}{n}\sum_{i=1}^n(X_i^2+\mu^2-2\mu X_i)] \\ &=E[E[X^2]+E^2[X]-2\mu E[X]]\\ &=E[X^2]-E^2[X]\\ &=\sigma^2 \end{aligned} E[S2]=E[n1i=1n(Xiμ)2]=E[n1i=1n(Xi2+μ22μXi)]=E[E[X2]+E2[X]2μE[X]]=E[X2]E2[X]=σ2

E [ S 2 ] = E [ 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 ] = 1 n − 1 E [ ∑ i = 1 n ( ( X i − μ ) − ( X ˉ − μ ) ) 2 ] = 1 n − 1 E [ ∑ i = 1 n ( X i − μ ) 2 + n ( X ˉ − μ ) 2 − 2 ( X ˉ − μ ) ∑ i = 1 n ( X i − μ ) ] = 1 n − 1 E [ ∑ i = 1 n ( X i − μ ) 2 − n ( X ˉ − μ ) 2 ] = 1 n − 1 ( E [ ∑ i = 1 n ( X i − μ ) 2 ] − n E [ ( X ˉ − μ ) 2 ] ) = 1 n − 1 ( n σ 2 − n D [ X ˉ ] ) = 1 n − 1 ( n σ 2 − n 1 n 2 ∑ i = 1 n D [ X i ] ) = 1 n − 1 ( n σ 2 − σ 2 ) = σ 2 \begin{aligned} E[S^2]&=E[\frac{1}{n-1}\sum_{i=1}^n (X_i-\bar{X})^2]\\ &=\frac{1}{n-1}E[\sum_{i=1}^n((X_i-\mu)-(\bar{X}-\mu))^2]\\ &=\frac{1}{n-1}E[\sum_{i=1}^n(X_i-\mu)^2+n(\bar{X}-\mu)^2-2(\bar{X}-\mu)\sum_{i=1}^n(X_i-\mu)]\\ &=\frac{1}{n-1}E[\sum_{i=1}^n(X_i-\mu)^2-n(\bar{X}-\mu)^2]\\ &=\frac{1}{n-1}(E[\sum_{i=1}^n(X_i-\mu)^2]-nE[(\bar{X}-\mu)^2])\\ &=\frac{1}{n-1}(n\sigma^2-nD[\bar{X}])\\ &=\frac{1}{n-1}(n\sigma^2-n\frac{1}{n^2}\sum_{i=1}^nD[X_i])\\ &=\frac{1}{n-1}(n\sigma^2-\sigma^2)\\ &=\sigma^2 \end{aligned} E[S2]=E[n11i=1n(XiXˉ)2]=n11E[i=1n((Xiμ)(Xˉμ))2]=n11E[i=1n(Xiμ)2+n(Xˉμ)22(Xˉμ)i=1n(Xiμ)]=n11E[i=1n(Xiμ)2n(Xˉμ)2]=n11(E[i=1n(Xiμ)2]nE[(Xˉμ)2])=n11(nσ2nD[Xˉ])=n11(nσ2nn21i=1nD[Xi])=n11(nσ2σ2)=σ2

交叉验证 t 检验

原理

在这里插入图片描述

表格

在这里插入图片描述

点估计与区间估计

假设人类身高分布为正态分布,即 X ~ N ( μ , σ 2 ) X~N(\mu,\sigma^2) XN(μ,σ2)。其中 μ \mu μ σ \sigma σ 均为定值,但我们只知道 σ \sigma σ 的取值,现在想要使用抽样的方法来估计 μ \mu μ 的值。

假设我们抽样的数据为 ( x 1 , . . . , x N ) (x_1,...,x_N) (x1,...,xN),则我们可以用这组数据的均值来估计 μ \mu μ,即令估计值 μ ^ = X ˉ = 1 N ∑ i = 1 N x i \hat{\mu}=\bar{X}=\frac{1}{N}\sum_{i=1}^N x_i μ^=Xˉ=N1i=1Nxi,这种方法即为点估计。

点估计可以直接估计出具体数值,但对于估计误差没有度量,因此引入了区间估计的方法。

由于 X ~ N ( μ , σ 2 ) X~N(\mu,\sigma^2) XN(μ,σ2) 是确定的,因此 X ˉ ~ N ( μ , σ 2 n ) \bar{X}~N(\mu,\displaystyle\frac{\sigma^2}{n}) XˉN(μ,nσ2) 也是确定的,所以我们可以得到:
P ( − 1.96 σ n ≤ X ˉ − μ ≤ 1.96 σ n ) P(\displaystyle\frac{-1.96\sigma}{\sqrt{n}}\leq \bar{X}-\mu\leq\displaystyle\frac{1.96\sigma}{\sqrt{n}}) P(n 1.96σXˉμn 1.96σ)
由此我们可以使用区间估计,即认为 μ \mu μ 在区间 [ X ˉ − − 1.96 σ n , X ˉ + − 1.96 σ n ] [\bar{X}-\displaystyle\frac{-1.96\sigma}{\sqrt{n}},\bar{X}+\displaystyle\frac{-1.96\sigma}{\sqrt{n}}] [Xˉn 1.96σ,Xˉ+n 1.96σ] 中,并且该区间的置信度为 95%。

对置信度通常有两种理解方式:

  • μ \mu μ 落在给定区间的概率为 95%
  • 每抽样一次,可以得到一个区间,抽样 100 次,则可以得到 100 个区间,其中大概有 95 个区间包含 μ \mu μ

第二种理解方式正确,第一种则不正确,因为 μ \mu μ 是定值而不是随机变量,因此 μ \mu μ 要么落在区间内,要么不落在区间内,没有「概率」一说。所以通常可以将「95% 置信度」理解为「有 95% 的把握认为区间内包含 μ \mu μ」。

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Gene_INNOCENT

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值