数据探索, 快速把握数据特点和规律

协方差与相关系数

对于二维随机变量(X,Y), 我们除了讨论X与Y的数学期望和 方差以外, 还需要描述X与Y之间的相互关系.

  • 协方差
    C o v ( X , Y ) = E { [ X − E ( X ) ] × [ Y − E ( Y ) ] } Cov(X,Y)=E\{ [X-E(X)] \times [Y-E(Y)] \} Cov(X,Y)=E{[XE(X)]×[YE(Y)]}
    求期望的部分为X与X期望的差 乘以 Y与Y期望的差. 所以它描述的是X与Y 两个变量的变化是否协同 以及协同的程度. 若为正, 说明同步变化, 一方增长的同时另一方也增长. 若为负, 说明变化趋势相反.
  • 相关系数
    ρ ( X , Y ) = C o v ( X , Y ) σ ( X ) σ ( Y ) \rho (X,Y)=\frac{Cov(X,Y)}{\sigma(X) \sigma(Y) } ρ(X,Y)=σ(X)σ(Y)Cov(X,Y)
    σ ( X ) \sigma(X) σ(X)为标准差.
    也称皮尔逊相关系数, Pearson correlation coefficient, 相当于对协方差做归一化.

例子

对照着例子来做一个直观体验.
这里写图片描述
图1-1 X与Y两个自变量, 7个观测值, E(X)=0, E(Y)=0. 分两组用来对比

  1. 情况一
  • 协方差
    C o v ( X , Y ) = E { [ X − E ( X ) ] × [ Y − E ( Y ) ] } = ( 100 − 0 ) ∗ ( 70 − 0 ) + ( − 100 − 0 ) ∗ ( − 70 − 0 ) + . . . + ( 0 − 0 ) ∗ ( 0 − 0 ) 7 = 15428 Cov(X,Y)=E\{ [X-E(X)] \times [Y-E(Y)] \} \\ =\frac {(100-0)*(70-0)+(-100-0)*(-70-0)+ ... + (0-0)*(0-0)} 7 \\ = 15428 Cov(X,Y)=E{[XE(X)]×[YE(Y)]}=7(1000)(700)+(1000)(700)+...+(00)(00)=15428
  • 相关系数
    σ ( X ) = 130.93 , σ ( Y ) = 119.28 \sigma (X)=130.93 ,\sigma (Y)=119.28 σ(X)=130.93,σ(Y)=119.28
    ρ ( X , Y ) = C o v ( X , Y ) σ ( X ) σ ( Y ) = 15428 130.93 ∗ 119.28 = 0.9879 \rho (X,Y)=\frac{Cov(X,Y)}{\sigma(X) \sigma(Y) } =\frac {15428} {130.93*119.28}=0.9879 ρ(X,Y)=σ(X)σ(Y)Cov(X,Y)=130.93119.2815428=0.9879
  1. 情况二
  • 协方差
    C o v ( X , Y ) = E { [ X − E ( X ) ] × [ Y − E ( Y ) ] } = ( 0.01 − 0 ) ∗ ( 70 − 0 ) + ( − 0.01 − 0 ) ∗ ( − 70 − 0 ) + . . . + ( 0 − 0 ) ∗ ( 0 − 0 ) 7 = 1.5428 Cov(X,Y)=E\{ [X-E(X)] \times [Y-E(Y)] \} \\ =\frac {(0.01-0)*(70-0)+(-0.01-0)*(-70-0)+ ... + (0-0)*(0-0)} 7 \\ = 1.5428 Cov(X,Y)=E{[XE(X)]×[YE(Y)]}=7(0.010)(700)+(0.010)(700)+...+(00)(00)=1.5428
  • 相关系数
    σ ( X ) = 0.013093 , σ ( Y ) = 119.28 \sigma (X)=0.013093 ,\sigma (Y)=119.28 σ(X)=0.013093,σ(Y)=119.28
    ρ ( X , Y ) = C o v ( X , Y ) σ ( X ) σ ( Y ) = 1.5428 0.013093 ∗ 119.28 = 0.9879 \rho (X,Y)=\frac{Cov(X,Y)}{\sigma(X) \sigma(Y) } =\frac {1.5428} {0.013093*119.28}=0.9879 ρ(X,Y)=σ(X)σ(Y)Cov(X,Y)=0.013093119.281.5428=0.9879

协方差有了对应尺度的变化, 但相关系数相同.

直方图

直返图,histogram, wikipedia 地址.
一种表达概率分布的条形图. 一般横轴是业务数据, 纵轴是落入相应数据范围的样本个数.
按照横轴的值是离散的还是连续的, 又可以分为两种.

  • 横轴为离散值
    比如统计一个学校各个班级中的学生人数, 那么横轴天然就是离散的.
  • 横轴为连续值
    此时需要将其离散化, 通常采用固定步长划分为多个区间, 然后再计算落入不同区间的样本值个数.
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cPmDTMis-1581735436515)(https://upload.wikimedia.org/wikipedia/commons/d/d9/Black_cherry_tree_histogram.svg)]
    图1-1 横轴为连续值的直方图

百分位图

百分位, Percentile, wikipedia 地址.
统计学中的一种度量, 可表示为:n个样本值从小到大排列, 处于p%位置的值, 称第p百分位数的值。
这里写图片描述
图2-1 统计文章发布时间的百分位图
从上图可以看到, 数据密集分布在特定的某些值上, 所以不同的百分位数值可能会一样.
引申一下, 在等频划分数据档次的时候, 划分点其实就是百分位点.

基尼系数

Gini Index, 典型用于衡量 居民收入的贫富差距, 它的计算与 百分位数 很相似, 所以一并列了出来.

它的值域为 [0,1], 数值越大说明贫富差距越大, 国际上通常把0.4作为贫富差距的警戒线, 过大容易社会动荡.

计算口径.

  1. 按照收入对居民升序排序.
  2. 作散点图, 前 x%的居民, 总收入为所有收入的 y%.
  3. 画出来收入绝对均衡时的参考线.
  4. gini index = A/(A+B)

在这里插入图片描述

参考

  1. 知乎: 如何通俗易懂地解释「协方差」与「相关系数」的概念?
  2. 百度百科, 基尼系数
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值