1、数学期望
离散型数据
设随机变量
X
X
X只取得有限个可能值
a
1
,
⋯
 
,
a
m
a_1,\cdots,a_m
a1,⋯,am,其概率分布为
P
(
X
=
a
i
)
=
p
i
,
(
i
=
1
,
⋯
 
,
m
)
P(X=a_i)=p_i,\quad (i=1,\cdots,m)
P(X=ai)=pi,(i=1,⋯,m),则
X
X
X的数学期望,即
E
(
X
)
∗
=
E
X
=
a
1
p
1
+
a
2
p
2
+
⋯
a
m
p
m
E(X)^*=EX=a_1p_1+a_2p_2+\cdots a_mp_m
E(X)∗=EX=a1p1+a2p2+⋯ampm
一般理解为以概率为权的加权平均。
N
N
N次试验中
X
X
X的取值,记为
X
ˉ
=
(
a
1
N
1
+
a
2
N
2
+
⋯
+
a
m
N
m
)
/
N
=
a
1
(
N
1
/
N
)
+
a
2
(
N
2
/
N
)
+
⋯
+
a
m
(
N
m
/
N
)
\begin{aligned} \bar X &=(a_1N_1+a_2N_2+\cdots+a_mN_m)/N \\ &=a_1(N_1/N) + a_2(N_2/N) + \cdots + a_m(N_m/N) \end{aligned}
Xˉ=(a1N1+a2N2+⋯+amNm)/N=a1(N1/N)+a2(N2/N)+⋯+am(Nm/N)
其中 N i / N N_i/N Ni/N是事件 X = a i {X=a_i} X=ai在 N N N次试验中的频率,当 N N N很大时 N i / N N_i/N Ni/N接近 p i p_i pi, X X X的数学期望 E ( X ) E(X) E(X),可认为在大量试验之下 X X X在各次试验中取值的平均。
连续型数据
设
X
X
X有概率密度函数
f
(
x
)
f(x)
f(x),如果
∫
−
∞
∞
∣
x
∣
f
(
x
)
d
x
≤
∞
\int_{-\infin}^{\infin}|x|f(x)dx \leq \infin
∫−∞∞∣x∣f(x)dx≤∞
则称
E
(
x
)
=
∫
−
∞
∞
x
f
(
x
)
d
x
E(x)=\int_{-\infin}^{\infin}xf(x)dx
E(x)=∫−∞∞xf(x)dx
为
X
X
X的数学期望(由
E
(
X
′
)
≈
∑
i
x
i
f
(
x
i
)
Δ
x
i
E(X') \approx \sum_i x_i f(x_i) \Delta x_i
E(X′)≈∑ixif(xi)Δxi推导而来)。
常见分布的数学期望
(1)设
X
X
X服从泊松分布
X
∼
P
(
λ
)
X \sim P(\lambda)
X∼P(λ),则
E
(
X
)
=
∑
i
=
0
∞
i
λ
i
i
!
e
−
λ
=
λ
e
−
λ
∑
i
=
1
∞
λ
i
−
1
(
i
−
1
)
!
=
λ
e
−
λ
∑
i
=
0
∞
λ
i
i
!
=
λ
E(X)=\sum_{i=0}^\infin i \frac{\lambda^i}{i!}e^{-\lambda}=\lambda e^{-\lambda} \sum_{i=1}^\infin \frac{\lambda^{i-1}}{(i-1)!}=\lambda e^{-\lambda} \sum_{i=0}^\infin \frac{\lambda^i}{i!}=\lambda
E(X)=i=0∑∞ii!λie−λ=λe−λi=1∑∞(i−1)!λi−1=λe−λi=0∑∞i!λi=λ
(2)设
X
X
X服从
[
a
,
b
]
[a,b]
[a,b]区间的均匀分布,则
E
(
X
)
=
1
b
−
a
∫
a
b
x
d
x
=
1
2
(
a
+
b
)
E(X)=\frac{1}{b-a}\int_a^bxdx=\frac{1}{2}(a+b)
E(X)=b−a1∫abxdx=21(a+b)
(3)若
X
X
X服从指数分布,则
E
(
X
)
=
λ
∫
0
∞
x
e
−
λ
x
d
x
=
λ
−
1
∫
0
∞
x
e
−
x
d
x
=
λ
−
1
Γ
(
2
)
=
λ
−
1
E(X)=\lambda \int_0^\infin xe^{-\lambda x}dx=\lambda^{-1}\int_0^\infin xe^{-x}dx=\lambda^{-1}\Gamma(2)=\lambda^{-1}
E(X)=λ∫0∞xe−λxdx=λ−1∫0∞xe−xdx=λ−1Γ(2)=λ−1
(4)设
X
X
X服从正太分布
N
(
μ
,
σ
2
)
N(\mu, \sigma^2)
N(μ,σ2),则
E
(
X
)
=
1
2
π
σ
∫
−
∞
∞
x
e
−
(
x
−
u
)
2
2
σ
2
d
x
E(X)=\frac{1}{\sqrt{2\pi}\sigma}\int_{-\infin}^\infin xe^{\large -\frac{(x-u)^2}{2\sigma^2}}dx
E(X)=2πσ1∫−∞∞xe−2σ2(x−u)2dx
\quad
令
x
=
μ
+
σ
t
x=\mu + \sigma t
x=μ+σt,则由对称性容易推得
E
(
X
)
=
1
2
π
∫
−
∞
∞
(
μ
+
σ
t
)
e
−
t
2
/
2
d
t
=
u
E(X)=\frac{1}{\sqrt{2\pi}}\int_{-\infin}^\infin (\mu + \sigma t)e^{-t^2/2}dt=u
E(X)=2π1∫−∞∞(μ+σt)e−t2/2dt=u
数学期望性质
(1)若干个随机变量之和的期望等于各变量的期望之和,即
E
(
X
1
+
X
2
+
⋯
+
X
n
)
=
E
(
X
1
)
+
E
(
X
2
)
+
⋯
+
E
(
X
n
)
E(X_1+X_2+\cdots+X_n)=E(X_1)+E(X_2)+\cdots+E(X_n)
E(X1+X2+⋯+Xn)=E(X1)+E(X2)+⋯+E(Xn)
(2)若干个独立随机变量之积的期望等于各变量的期望之和,即
E
(
X
1
X
2
⋯
X
n
)
=
E
(
X
1
)
E
(
X
2
)
⋯
E
(
X
n
)
E(X_1X_2\cdots X_n)=E(X_1)E(X_2) \cdots E(X_n)
E(X1X2⋯Xn)=E(X1)E(X2)⋯E(Xn)
(3)设随机变量
X
X
X为离散型,有分布
P
(
X
=
a
i
)
=
p
i
 
(
i
=
1
,
2
,
⋯
 
)
P(X=a_i)=p_i\,(i=1,2,\cdots)
P(X=ai)=pi(i=1,2,⋯);或者为连续型,有概率密度函数
f
(
x
)
f(x)
f(x),则
E
(
g
(
X
)
)
=
∑
i
g
(
a
i
)
p
i
或
E
(
g
(
X
)
)
=
∫
−
∞
∞
g
(
x
)
f
(
x
)
d
x
E(g(X))=\sum_i g(a_i)p_i \quad 或 \quad E(g(X))=\int_{-\infin}^\infin g(x)f(x)dx
E(g(X))=i∑g(ai)pi或E(g(X))=∫−∞∞g(x)f(x)dx
\quad\quad 特殊情况下,若 c c c为常数,则 E ( c X ) = c E ( X ) E(cX)=cE(X) E(cX)=cE(X)
(4)设连续型随机变量
X
X
X的分布函数为
F
(
x
)
F(x)
F(x),则满足条件
P
(
X
≤
m
)
=
F
(
m
)
=
1
/
2
P(X \leq m)=F(m)=1/2
P(X≤m)=F(m)=1/2
的数 m m m称为 X X X或分布 F F F的中位数。
2、方差与矩
方差
设
X
X
X为随机变量,分布为
F
F
F,则
V
a
r
(
X
)
=
E
(
X
−
E
X
)
2
=
E
(
X
2
)
−
(
E
X
)
2
Var(X)=E(X-EX)^2=E(X^2)-(EX)^2
Var(X)=E(X−EX)2=E(X2)−(EX)2
称为 X X X(或分布 F F F)的方差,其平方根 V a r ( X ) \sqrt{Var(X)} Var(X)称为 X X X(或分布 F F F)的标准差。
性质:
1
。
\quad1^。
1。常数的方差为0;
2 。 \quad2^。 2。若 c c c为常数,则 V a r ( X + c ) = V a r ( X ) Var(X+c)=Var(X) Var(X+c)=Var(X);
3 。 \quad3^。 3。若 c c c为常数,则 V a r ( c X ) = c 2 V a r ( X ) Var(cX)=c^2Var(X) Var(cX)=c2Var(X);
如对于随机变量
X
=
{
1
,
2
,
3
}
X=\{1,2,3\}
X={1,2,3},均值
X
ˉ
=
2
\bar X=2
Xˉ=2,则方差
S
2
=
(
1
−
2
)
2
+
(
2
−
2
)
2
+
(
3
−
2
)
2
3
S^2=\frac{(1-2)^2+(2-2)^2+(3-2)^2}{3}
S2=3(1−2)2+(2−2)2+(3−2)2
可视为 { 1 , 2 , 3 } \{1,2,3\} {1,2,3}发生的概率均为 1 / 3 1/3 1/3。
矩
设 X X X为随机变量, c c c为常数, k k k为正整数,则量 E [ ( X − c ) k ] E[(X-c)^k] E[(X−c)k]称为 X X X关于 c c c点的 k k k阶矩。
(1) c = 0 c=0 c=0,此时 α k = E ( X k ) \alpha_k=E(X^k) αk=E(Xk)称为 X X X的 k k k阶原点矩;
(2) c = E ( X ) c=E(X) c=E(X),此时 μ = E [ ( X − E X ) k ] \mu=E[(X-EX)^k] μ=E[(X−EX)k]称为 X X X的k阶中心矩;
即一阶原点矩就是期望,二阶中心矩就是方差。
协方差
C
o
v
(
X
,
Y
)
=
E
[
(
X
−
E
(
X
)
)
(
Y
−
E
(
Y
)
)
]
=
E
(
X
Y
)
−
E
(
X
)
E
(
Y
)
Cov(X,Y)=E[(X-E(X))(Y-E(Y))]=E(XY)-E(X)E(Y)
Cov(X,Y)=E[(X−E(X))(Y−E(Y))]=E(XY)−E(X)E(Y)
性质:
1
。
\quad\quad1^。
1。若
X
X
X,
Y
Y
Y独立,则
C
o
v
(
X
,
Y
)
=
0
Cov(X,Y)=0
Cov(X,Y)=0;
2 。 \quad\quad2^。 2。 C o v 2 ( X , Y ) ≤ σ 1 2 σ 2 2 Cov^2(X,Y) \leq \sigma_1^2 \sigma_2^2 Cov2(X,Y)≤σ12σ22,当前仅当 X X X, Y Y Y有严格线形关系时,等号成立(即 Y = a + b X Y=a+bX Y=a+bX);
证明: 考虑下式
E
[
t
(
X
−
E
(
X
)
)
+
(
Y
−
E
(
Y
)
)
]
2
=
σ
1
2
t
2
+
2
C
o
v
(
X
,
Y
)
t
+
σ
2
2
E[t(X-E(X))+(Y-E(Y))]^2=\sigma_1^2t^2+2Cov(X,Y)t+\sigma_2^2
E[t(X−E(X))+(Y−E(Y))]2=σ12t2+2Cov(X,Y)t+σ22
\quad
显然上式对于所有的
t
t
t均成立,由一元二次方程大于零,知系数满足
σ
1
2
σ
2
2
≥
C
o
v
2
(
X
,
Y
)
\sigma_1^2\sigma_2^2 \geq Cov^2(X,Y)
σ12σ22≥Cov2(X,Y)
\quad
若上式等号成立,则有
σ
1
2
t
2
+
2
C
o
v
(
X
,
Y
)
t
+
σ
2
2
=
(
t
σ
1
+
σ
2
)
2
=
0
\sigma_1^2t^2+2Cov(X,Y)t+\sigma_2^2=(t\sigma_1+\sigma_2)^2=0
σ12t2+2Cov(X,Y)t+σ22=(tσ1+σ2)2=0
\quad
故
t
0
=
−
σ
2
/
σ
1
t_0=-\sigma_2/\sigma_1
t0=−σ2/σ1时,等式成立。由于
E
2
(
Z
)
E^2(Z)
E2(Z)的非负性,知性质2得证,即
t
(
X
−
E
(
X
)
)
+
(
Y
−
E
(
Y
)
)
=
0
t(X-E(X))+(Y-E(Y))=0
t(X−E(X))+(Y−E(Y))=0
相关系数
C
o
r
r
(
X
,
Y
)
=
C
o
v
(
X
,
Y
)
/
(
σ
1
σ
2
)
Corr(X,Y)=Cov(X,Y)/(\sigma_1 \sigma_2)
Corr(X,Y)=Cov(X,Y)/(σ1σ2)
性质:
1
。
\quad\quad1^。
1。若
X
X
X,
Y
Y
Y独立,则
C
o
r
r
(
X
,
Y
)
=
0
Corr(X,Y)=0
Corr(X,Y)=0;
2 。 \quad\quad2^。 2。 ∣ C o r r ( X , Y ) ∣ ≤ 1 |Corr(X,Y)| \leq 1 ∣Corr(X,Y)∣≤1,当且仅当 X X X, Y Y Y有严格线形关系时等式成立;
相关系数常称为"线形相关系数",相关系数只是反映了 X X X, Y Y Y的"线性"相关程度;对于非线性关系, ∣ C o r r ( X , Y ) ∣ |Corr(X,Y)| ∣Corr(X,Y)∣的值不定。
如
设
X
∼
R
(
−
1
/
2
,
1
/
2
)
X\sim R(-1/2,1/2)
X∼R(−1/2,1/2),即区间
[
−
1
/
2
,
1
/
2
]
[-1/2,1/2]
[−1/2,1/2]内的均匀分布,而
Y
=
c
o
s
(
X
)
Y=cos(X)
Y=cos(X),由于
E
(
X
)
=
0
E(X)=0
E(X)=0知
C
o
v
(
X
,
Y
)
=
E
(
X
Y
)
=
E
(
X
c
o
s
(
X
)
)
=
∫
−
1
/
2
1
/
2
x
c
o
s
x
d
x
=
0
Cov(X,Y)=E(XY)=E(Xcos(X))=\int_{-1/2}^{1/2}xcosxdx=0
Cov(X,Y)=E(XY)=E(Xcos(X))=∫−1/21/2xcosxdx=0
X X X, Y Y Y有严格的函数关系(非线性),但其协方差为0。