协方差与相关系数
对于二维随机变量(X,Y), 我们除了讨论X与Y的数学期望和 方差以外, 还需要描述X与Y之间的相互关系.
- 协方差
C o v ( X , Y ) = E { [ X − E ( X ) ] × [ Y − E ( Y ) ] } Cov(X,Y)=E\{ [X-E(X)] \times [Y-E(Y)] \} Cov(X,Y)=E{[X−E(X)]×[Y−E(Y)]}
求期望的部分为X与X期望的差 乘以 Y与Y期望的差. 所以它描述的是X与Y 两个变量的变化是否协同 以及协同的程度. 若为正, 说明同步变化, 一方增长的同时另一方也增长. 若为负, 说明变化趋势相反. - 相关系数
ρ ( X , Y ) = C o v ( X , Y ) σ ( X ) σ ( Y ) \rho (X,Y)=\frac{Cov(X,Y)}{\sigma(X) \sigma(Y) } ρ(X,Y)=σ(X)σ(Y)Cov(X,Y)
σ ( X ) \sigma(X) σ(X)为标准差.
也称皮尔逊相关系数, Pearson correlation coefficient, 相当于对协方差做归一化.
例子
对照着例子来做一个直观体验.
图1-1 X与Y两个自变量, 7个观测值, E(X)=0, E(Y)=0. 分两组用来对比
- 情况一
- 协方差
C o v ( X , Y ) = E { [ X − E ( X ) ] × [ Y − E ( Y ) ] } = ( 100 − 0 ) ∗ ( 70 − 0 ) + ( − 100 − 0 ) ∗ ( − 70 − 0 ) + . . . + ( 0 − 0 ) ∗ ( 0 − 0 ) 7 = 15428 Cov(X,Y)=E\{ [X-E(X)] \times [Y-E(Y)] \} \\ =\frac {(100-0)*(70-0)+(-100-0)*(-70-0)+ ... + (0-0)*(0-0)} 7 \\ = 15428 Cov(X,Y)=E{[X−E(X)]×[Y−E(Y)]}=7(100−0)∗(70−0)+(−100−0)∗(−70−0)+...+(0−0)∗(0−0)=15428 - 相关系数
σ ( X ) = 130.93 , σ ( Y ) = 119.28 \sigma (X)=130.93 ,\sigma (Y)=119.28 σ(X)=130.93,σ(Y)=119.28
ρ ( X , Y ) = C o v ( X , Y ) σ ( X ) σ ( Y ) = 15428 130.93 ∗ 119.28 = 0.9879 \rho (X,Y)=\frac{Cov(X,Y)}{\sigma(X) \sigma(Y) } =\frac {15428} {130.93*119.28}=0.9879 ρ(X,Y)=σ(X)σ(Y)Cov(X,Y)=130.93∗119.2815428=0.9879
- 情况二
- 协方差
C o v ( X , Y ) = E { [ X − E ( X ) ] × [ Y − E ( Y ) ] } = ( 0.01 − 0 ) ∗ ( 70 − 0 ) + ( − 0.01 − 0 ) ∗ ( − 70 − 0 ) + . . . + ( 0 − 0 ) ∗ ( 0 − 0 ) 7 = 1.5428 Cov(X,Y)=E\{ [X-E(X)] \times [Y-E(Y)] \} \\ =\frac {(0.01-0)*(70-0)+(-0.01-0)*(-70-0)+ ... + (0-0)*(0-0)} 7 \\ = 1.5428 Cov(X,Y)=E{[X−E(X)]×[Y−E(Y)]}=7(0.01−0)∗(70−0)+(−0.01−0)∗(−70−0)+...+(0−0)∗(0−0)=1.5428 - 相关系数
σ ( X ) = 0.013093 , σ ( Y ) = 119.28 \sigma (X)=0.013093 ,\sigma (Y)=119.28 σ(X)=0.013093,σ(Y)=119.28
ρ ( X , Y ) = C o v ( X , Y ) σ ( X ) σ ( Y ) = 1.5428 0.013093 ∗ 119.28 = 0.9879 \rho (X,Y)=\frac{Cov(X,Y)}{\sigma(X) \sigma(Y) } =\frac {1.5428} {0.013093*119.28}=0.9879 ρ(X,Y)=σ(X)σ(Y)Cov(X,Y)=0.013093∗119.281.5428=0.9879
协方差有了对应尺度的变化, 但相关系数相同.
直方图
直返图,histogram, wikipedia 地址.
一种表达概率分布的条形图. 一般横轴是业务数据, 纵轴是落入相应数据范围的样本个数.
按照横轴的值是离散的还是连续的, 又可以分为两种.
- 横轴为离散值
比如统计一个学校各个班级中的学生人数, 那么横轴天然就是离散的. - 横轴为连续值
此时需要将其离散化, 通常采用固定步长划分为多个区间, 然后再计算落入不同区间的样本值个数.
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cPmDTMis-1581735436515)(https://upload.wikimedia.org/wikipedia/commons/d/d9/Black_cherry_tree_histogram.svg)]
图1-1 横轴为连续值的直方图
百分位图
百分位, Percentile, wikipedia 地址.
统计学中的一种度量, 可表示为:n个样本值从小到大排列, 处于p%位置的值, 称第p百分位数的值。
图2-1 统计文章发布时间的百分位图
从上图可以看到, 数据密集分布在特定的某些值上, 所以不同的百分位数值可能会一样.
引申一下, 在等频划分数据档次的时候, 划分点其实就是百分位点.
基尼系数
Gini Index, 典型用于衡量 居民收入的贫富差距, 它的计算与 百分位数 很相似, 所以一并列了出来.
它的值域为 [0,1], 数值越大说明贫富差距越大, 国际上通常把0.4作为贫富差距的警戒线, 过大容易社会动荡.
计算口径.
- 按照收入对居民升序排序.
- 作散点图, 前 x%的居民, 总收入为所有收入的 y%.
- 画出来收入绝对均衡时的参考线.
- gini index = A/(A+B)
参考
- 知乎: 如何通俗易懂地解释「协方差」与「相关系数」的概念?
- 百度百科, 基尼系数