概率论11 协方差与相关系数

  前面介绍的分布描述量,比如期望和方差,都是基于单一随机变量的。现在考虑多个随机变量的情况。我们使用联合分布来表示定义在同一个样本空间的多个随机变量的概率分布。

  联合分布中包含了相当丰富的信息。比如从联合分布中抽取某个随机变量的边缘分布,即获得该随机变量的分布,并可以据此,获得该随机变量的期望和方差。这样做是将视线限制在单一的一个随机变量上,我们损失了联合分布中包含的其他有用信息,比如不同随机变量之间的互动关系。为了了解不同随机变量之间的关系,需要求助其它的一些描述量。

协方差

  协方差(covariance)表达了两个随机变量的协同变化关系。我们取一个样本空间,即学生的体检数据。学生的身高为随机变量X,学生的体重为随机变量Y。

 160cm170cm180cm
60kg0.20.050.05
70kg0.050.30.05
80kg0.050.050.2

  根据上表,大的身高(180cm)和大的体重(80kg)同时出现的概率较大(0.2),小的身高值(160cm)和小的体重(60kg)的概率也 较大(0.2)。偏大的身高往往伴随偏大的体重,偏小的身高常伴随偏小的体重。这种“大”伴随着“大”,“小”伴随着“小”的情形,叫做正相关。根据上面的数据,身高和体重两个随机变量正相关性很强。

  另一方面,如果“大”配“小”,“小”配“大”的概率很高,那么两个随机变量负相关。“最萌身高差”是负相关的一个范例。(样本空间为情侣的身高信息。可以定义男生身高为一个随机变量,女生身高为另一个随机变量)

  正如其他的分布描述量一样,协方差从概率分布中提取信息,让我们获知分布的“性能”。对于一个已知的联合分布来说,任意两个随机变量之间都可以计算出一个协方差,即一个数值。

定义

  协方差的定义如下,如果X和Y是联合分布的随机变量,且分别有期望μx,那么X和Y的协方差为  协方差的定义基于期望。根据期望的定义,协方差可以直接用于离散随机变量和连续随机变量。

  我们已经知道,期望是某个随机变量根据概率的加权平均。我们所要加权平均的目标是X-μx和Y-μy的乘积。随机变量和期望的差,代表了随机变量的取值和中心值的偏离程度,也就是我们上面所谓的“偏大”或者“偏小”的情况:正值的偏离表示“偏大”,负值的偏离表示“偏小”。如果是正相关,即大配大,小配小的情况,那么这一乘积为正;如果是负相关,乘积为负。所以,通过(XμX)(YμY)这个量,我们表达了X和Y的相关性。

  回到刚才的数据来计算相关性,

 160cm170cm180cm
60kg0.20.050.05
70kg0.050.30.05
80kg0.050.050.2

  让身高为X,体重为Y。我们可以通过边缘分布,来分别获得X和Y的分布(回忆一下)。求得X和Y的期望,分别为170和70。计算各个格子中的(XμX)(YμY)

 160cm170cm180cm
60kg1000-100
70kg000
80kg-1000100

  上面的两个表,对应的格子相乘,并求和,就得到协方差:  在上面的计算中,正相关的项目都分配有比较大的概率值。最终的协方差也是一个正值。

  根据期望的性质,我们可以改写协方差的表达形式:  当X和Y独立时,有E(XY)=E(X)E(Y),Cov(X,Y)=0

(注意,Cov(X,Y)=0并不意味着X和Y独立)

 

相关系数

  正的协方差表达了正相关性,负的协方差表达了负相关性。对于同样的两个随机变量来说,计算出的协方差越大,相关性越强。

  但随后一个问题,身高和体重的协方差为30,这究竟是多大的一个量呢?如果我们又发现,身高与鞋号的协方差为5,是否说明,相对于鞋号,身高与体重的的相关性更强呢?

  这样横向对比超出了协方差的能力范围。从日常生活经验来说,体重的上下浮动大约为20kg,而鞋号的上下浮动大约可能只是5个号码。所以,对于体重来说,5kg与中心的偏离并不算大,而5个号码的鞋号差距,就可能是最极端的情况了。假设身高和体重的相关强度,与身高和鞋码的相关强度类似,但由于体重本身的数值上下浮动更大,所计算出的协方差也会更大。另一个情况,依然是计算身高与体重的协方差。数据完全不变,而只更改单位。我们的体重用克而不是千克 做单位,计算出的协防差是原来数值的1000倍!

  为了能进行这样的横向对比,我们需要排除用统一的方式来定量某个随机变量的上下浮动。这时,我们计算相关系数(correlation coefficient)。相关系数是“归一化”的协方差。它的定义如下:  相关系数是用协方差除以两个随机变量的标准差。相关系数的大小在-1和1之间变化。再也不会出现因为计量单位变化,而数值暴涨的情况了。

 

  依然使用上面的身高和体重数据,可以计算出  这样一个“归一化”了的相关系数,更容易让人把握到相关性的强弱,也更容易在不同随机变量之间,做相关性的横向比较。

 

双变量正态分布

  双变量正态分布是一种常见的联合分布。它描述了两个随机变量X1和X2的概率分布。概率密度的表达式如下:其中,  X1和X2的边缘密度分别为两个正态分布,即正态分布N(μ1,σ1),N(μ2,σ2)

  另一方面,除非ρ=0,否则联合分布也并不是两个正态分布的简单相乘。可以证明,ρ正是双变量正态分布中,两个变量的相关系数。

   μ1=0,σ1=1,μ2=0,σ2=1时图像如下:

  让ρ=0.8,也就是说,两个随机变量的相关系数为0.8。绘制不同视角的同一分布,结果如下。可以看到,概率分布并不中心对称。沿着Y=X这条线,概率曲面隆起,概率明显比较高。而沿着Y=-X这条线,概率较低。这也就是我们所说的正相关。

  现在对于我们来说,ρ有了更具体的现实意义。

转载于:https://www.cnblogs.com/xuekai-to-sharp/p/3656436.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值