一、期望
1、定义
在概率论和统计学中,数学期望(mean)(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。它反映随机变量平均取值的大小。
- 离散型:
- 连续型
即:概率加权下的“平均值”。
2、无条件成立
3、X和Y相互独立
- 反正不成立。事实上,若,只能说明X和Y不相关。(不相关的定义来自下面协方差部分?)
关于相关和独立(摘自一只快乐小胖):
相关性是指两个随机变量之间的线性关系,不相关只是说明它们之间不具有线性关系,但是可以有别的关系,所以不一定相互独立。
如果两个随机变量独立,就是说它们之间没有任何关系,自然也不会有线性关系,所以它们不相关。反过来说如果两个随机变量相关,也就是说它们之间有线性关系,自然不独立。
- 独立:
- 互斥:,
二、方差
1、定义
方差是衡量源数据和期望值相差的度量值。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。
2、无条件成立
3、X和Y独立
方差的平方根称为标准差。
三、协方差
1、定义
在有限的二阶矩的情况下,两个共同分布的实值随机变量X和Y之间的协方差被定义为它们偏离各自期望值的期望乘积。但协方差的计算有多种形式,和定义的一般格式有所区别。
2、性质
3、协方差和独立、不相关
X和Y独立时,
而
从而,当X和Y独立时,
但X和Y独立这个前提太强,我们定义若,则称X和Y不相关。
4、协方差的意义
(1)协方差是两个随机变量具有相同方向变化趋势的度量:
- 若,它们的变化趋势相同;
- 若,它们的变化趋势相反;
- 若,称X和Y不相关。
对应到机器学习,可利用协方差来筛选特征(降维)。
(2)协方差有没有上界?
若
则
当且仅当X和Y之间有线性关系时,等号成立。
5、协方差矩阵
对于n个随机向量()任意两个元素和都可以得到一个协方差,从而形成n*n的矩阵,协方差矩阵是一个对称阵。
将随机向量写成列向量,则为n列矩阵,将X的列分别去均值后,得到矩阵,则协方差矩阵为:
所以,可基于协方差矩阵筛选特征。
四、Pearson相关系数
1、定义
也就是把上面的除过去。
2、性质
- 由协方差上界定理可知:
- 当且仅当X和Y之间有线性关系时,等号成立。
- 容易看到,相关系数是标准尺度下的协方差。上面关于协方差与XY相互关系的结论,完全适用于相关系数和XY的相互关系。
3、相关系数矩阵
类似于协方差矩阵,相关系数矩阵中每个元素的范围在[-1,1]之间,更方便进行比较。相关系数矩阵可以发现特征之间的相关性。如果两个特征之间比较接近或相反(数值在-1或1之间),说明这两个特征比较相似,所以可以剔除其中一个特征。
五、矩
对于随机变量X,X的k阶圆点矩为
X的k阶中心距为
六、统计参数总结
期望(一阶原点矩)
方差(标准差,二阶中心矩)
变异系数(Coefficient of Variation):标准差与均值的比值,记为C·V
偏度(Skewness) 三阶
峰度(Kurtosis)四阶