期望、方差、协方差与相关系数
期望
定义: 设离散型变量
X
X
X 的分布律为
P
{
X
=
x
k
}
=
p
k
,
k
=
1
,
2
,
⋯
.
P\{ X = {x_k}\} = {p_k},\begin{array}{c} {}&{k = 1,2, \cdots .} \end{array}
P{X=xk}=pk,k=1,2,⋯.
随机变量
X
X
X 的数学期望为
E
(
X
)
=
∑
k
=
1
∞
x
k
p
k
E(X) = \sum\limits_{k = 1}^\infty {{x_k}{p_k}}
E(X)=k=1∑∞xkpk
设连续型随机变量
X
X
X 的概率密度为
f
(
x
)
f(x)
f(x),
X
X
X 的数学期望为
E
(
X
)
=
∫
−
∞
∞
x
f
(
x
)
d
x
E(X) = \int_{ - \infty }^\infty {xf(x)dx}
E(X)=∫−∞∞xf(x)dx
一般的期望也称均值,但是二者有不同。
期望和均值的不同?
期望 是一个概率论概念,均值是一个统计学概念。
均值是实验后根据实际结果统计得到的样本的平均值,期望是实验前根据概率分布来预测样本的均值。所以可以说期望是均值随样本趋于无穷的极限。
方差
方差用来度量随机变量 X X X 与均值 E ( X ) E(X) E(X) 的偏离程度。
定义: 设
X
X
X 是一个随机变量,若
E
{
[
X
−
E
(
X
)
]
2
}
E\{ {[X - E(X)]^2}\}
E{[X−E(X)]2} 存在, 则称
E
{
[
X
−
E
(
X
)
]
2
}
E\{ {[X - E(X)]^2}\}
E{[X−E(X)]2} 为
X
X
X 的方差,记为
D
(
X
)
D(X)
D(X) 或 Var(X),即
D
(
X
)
=
V
a
r
(
X
)
=
E
{
[
X
−
E
(
X
)
]
2
}
{\rm{D(X) = Var(X) = }}E\{ {[X - E(X)]^2}\}
D(X)=Var(X)=E{[X−E(X)]2}
引入
D
(
X
)
\sqrt {{\rm{D(X)}}}
D(X) ,记为
σ
(
X
)
\sigma (X)
σ(X),称为标准差或者均方差。
离散型随机变量:
D
(
X
)
=
∑
k
=
1
∞
[
x
−
E
(
X
)
]
2
p
k
{\rm{D(X) = }}\sum\limits_{k = 1}^\infty {{{[x - E(X)]}^2}{p_k}}
D(X)=k=1∑∞[x−E(X)]2pk
其中
p
k
p_k
pk 是
X
X
X 的分布律
连续型随机变量:
D
(
X
)
=
∫
−
∞
∞
[
x
−
E
(
X
)
]
2
f
(
x
)
d
x
{\rm{D(X) = }}\int_{ - \infty }^\infty {{{[x - E(X)]}^2}f(x)dx}
D(X)=∫−∞∞[x−E(X)]2f(x)dx
f
(
x
)
f(x)
f(x) 是
X
X
X 的概率密度。
随机变量
X
X
X 的方差可以用下面的公式计算:
D
(
X
)
=
E
(
X
2
)
−
[
E
(
X
)
]
2
D(X) = E(X^2)-[E(X)]^2
D(X)=E(X2)−[E(X)]2
协方差与相关系数
定义:
E
{
[
X
−
E
(
X
)
]
[
Y
−
E
(
Y
)
]
}
E\{ [X - E(X)][Y - E(Y)]\}
E{[X−E(X)][Y−E(Y)]} 称为随机变量
X
X
X 与
Y
Y
Y 的协方差,记为
C
o
v
(
X
,
Y
)
Cov(X,Y)
Cov(X,Y) 即:
C
o
v
(
X
,
Y
)
=
E
{
[
X
−
E
(
X
)
]
[
Y
−
E
(
Y
)
]
}
Cov(X,Y) = E\{ [X - E(X)][Y - E(Y)]\}
Cov(X,Y)=E{[X−E(X)][Y−E(Y)]}
而
ρ
X
Y
=
C
o
v
(
X
,
Y
)
D
(
X
)
D
(
Y
)
{\rho _{XY}} = \frac{{Cov(X,Y)}}{{\sqrt {{\rm{D(X)}}} \sqrt {{\rm{D(Y)}}} }}
ρXY=D(X)D(Y)Cov(X,Y)
称为随机变量
X
X
X 与
Y
Y
Y 的相关系数。
协方差可以用于衡量数据直接的相关性,设有数据 X X X 和 数据 Y Y Y, 通过计算二者的协方差可以有下面的三种情况:
- C o v ( X , Y ) > 0 Cov(X,Y) > 0 Cov(X,Y)>0 时, X X X 、 Y Y Y 正相关,即两者有同时增加或者减少的倾向
- C o v ( X , Y ) < 0 Cov(X,Y) < 0 Cov(X,Y)<0 时, X X X 、 Y Y Y 正相关,即两者有反向增加或者减少的倾向
- C o v ( X , Y ) = 0 Cov(X,Y) = 0 Cov(X,Y)=0 时, X X X 、 Y Y Y 不相关
那么相关系数又是干嘛的呢,假如我们有身高、体重、年龄这三组数据,我们想比较一下到底是身高与体重的相关性大,还是年龄与体重的相关性大?那我们计算身高、体重会有一个单位(厘米.公斤)的度量,计算年龄、体重也会有一个单位(岁.公斤)度量,这样的话单位不统一就没有评价的标准。通过计算他们的相关系数,就可把单位消掉,忽略它们各自不同的度量,就可以归一化到 -1 和 1 之间的值进行比较。
欢迎大家关注我的个人公众号,同样的也是和该博客账号一样,专注分享技术问题,我们一起学习进步