概率论11 协方差与相关系数

最新推荐文章于 2024-09-07 21:37:12 发布

weixin_30808575

最新推荐文章于 2024-09-07 21:37:12 发布

阅读量295

点赞数

原文链接：http://www.cnblogs.com/xuekai-to-sharp/p/3656436.html

版权

　　前面介绍的分布描述量，比如期望和方差，都是基于单一随机变量的。现在考虑多个随机变量的情况。我们使用联合分布来表示定义在同一个样本空间的多个随机变量的概率分布。

　　联合分布中包含了相当丰富的信息。比如从联合分布中抽取某个随机变量的边缘分布，即获得该随机变量的分布，并可以据此，获得该随机变量的期望和方差。这样做是将视线限制在单一的一个随机变量上，我们损失了联合分布中包含的其他有用信息，比如不同随机变量之间的互动关系。为了了解不同随机变量之间的关系，需要求助其它的一些描述量。

协方差

　　协方差(covariance)表达了两个随机变量的协同变化关系。我们取一个样本空间，即学生的体检数据。学生的身高为随机变量X，学生的体重为随机变量Y。

	160cm	170cm	180cm
60kg	0.2	0.05	0.05
70kg	0.05	0.3	0.05
80kg	0.05	0.05	0.2

　　根据上表，大的身高(180cm)和大的体重(80kg)同时出现的概率较大(0.2)，小的身高值(160cm)和小的体重(60kg)的概率也较大(0.2)。偏大的身高往往伴随偏大的体重，偏小的身高常伴随偏小的体重。这种“大”伴随着“大”，“小”伴随着“小”的情形，叫做正相关。根据上面的数据，身高和体重两个随机变量正相关性很强。

　　另一方面，如果“大”配“小”，“小”配“大”的概率很高，那么两个随机变量负相关。“最萌身高差”是负相关的一个范例。（样本空间为情侣的身高信息。可以定义男生身高为一个随机变量，女生身高为另一个随机变量）

　　正如其他的分布描述量一样，协方差从概率分布中提取信息，让我们获知分布的“性能”。对于一个已知的联合分布来说，任意两个随机变量之间都可以计算出一个协方差，即一个数值。

定义

　　协方差的定义如下，如果X和Y是联合分布的随机变量，且分别有期望μx,那么X和Y的协方差为　　协方差的定义基于期望。根据期望的定义，协方差可以直接用于离散随机变量和连续随机变量。

　　我们已经知道，期望是某个随机变量根据概率的加权平均。我们所要加权平均的目标是X-μx和Y-μy的乘积。随机变量和期望的差，代表了随机变量的取值和中心值的偏离程度，也就是我们上面所谓的“偏大”或者“偏小”的情况：正值的偏离表示“偏大”，负值的偏离表示“偏小”。如果是正相关，即大配大，小配小的情况，那么这一乘积为正；如果是负相关，乘积为负。所以，通过(X−μX)(Y−μY)这个量，我们表达了X和Y的相关性。