(数据分析方法)相关性分析

目录

一、定义

二、相关关系分类

三、数据可视化(散点图)

四、相关分析

4.1 量化指标

4.1.1 相关系数

4.1.1.1 皮尔森(Pearson)相关系数

4.1.1.2 斯皮尔曼(Spearman)相关系数

4.1.1.3 肯达尔(Kendall)相关系数

4.1.1.4 其他相关系数

4.1.2 相伴概率值p和假设检验

4.2 分析步骤

4.3 分析方法

4.3.1 两个变量的线性相关分析

4.3.2 偏相关分析

4.3.3 距离相关分析

4.3.4 其他相关分析

4.3.4.1 定类数据(变量)的相关分析

4.3.4.1 典型相关性分析(CCA)

【CCA算法思想】

【CCA算法细节】

【CCA算法流程】

【CCA算法总结】

【参考资料】


一、定义

相关关系是指变量的数值之间存在着依存关系,即一个变量的数值 会随着另一个变量或几个变量的数值变化而呈现出一定的变化规律。

很多时候,我们都需要分析数据之间的相关性,相关性分析是数据回归前提,具有相关性的数据可以进一步进行回归分析。

在 客观现实中,许多现象之间都存在着某种相互关联的关系。例如,

  • 降雨 量与云层厚度之间的关系;

  • 居民收入增长率与物价指数的关系;

  • 人的身 高和体重的关系;

  • 汽车行驶速度与行驶里程之间的关系;

  • 圆的面积与圆 的半径之间的关系等。

现象与现象之间的关系如果能够使用数值来描 述,就形成了变量与变量之间的关系,但是这种依存关系不是严格的函 数关系。也就是说,当一个变量或几个变量取某一个数值时,对应变量 的数值也会变化,但是具体数值的函数变化规律是不确定的。例如,人的身高与体重之间的关系就属于相关关系,就全社会而言,对于具有同 样身高的人,体重的数值未必相同。也就是说,同样的身高数值对应的 体重数值是不确定的,但是体重数值却是随着“身高越高,体重越重”这 个一般的规律而变化,因此两者是一种相关关系;出租房的面积变量和 租金变量之间也属于相关关系,当给定一个出租房的面积时,出租房的 出租价格是波动和不确定的,但是房租会伴随着出租房面积的大小变化 而变化。

  • 【注意事项】

相关分析研究的是两个变量的相关性,但你研究的两个变量必须是有关联的,如果你把历年人口总量和你历年的身高做相关性分析,分析结果会呈现显著地相关,但它没有实际的意义,因为人口总量和你的身高都是逐步增加的,从数据上来说是有一致性,但他们没有现实意义。

二、相关关系分类

如果变量之间存在相关关系,可能存在以下几种情况:1. 因果关系;2. 相互依存;3. 虚假相关关系;

相关关系从不同的角度有不同的分类方式。

  • 首先是按照相关关系的强度进行分类,可以分为完全相关、弱相关 和不相关三种;

  • 也能按照相关关系的方向进行分类,可 以分为正相关和负相关两种;

  • 其次是按照相关关系的形态划分,可以分为线性相关关系和非线性相关关系

  • 最后还有一种相关关系的分类方式是按照变量的个数进行分类,可 以分为单相关关系、复相关关系和偏相关关系

三、数据可视化(散点图)

散点图是描述相关关系类型的直观工具,特别适用于单相关关系分析,也就是只涉及两个变量的二元变量相关分析。

如下图所示,根据 散点在二维坐标系中的分布状态,分析者可以直观快速地初步判断两个 变量之间是否存在相关关系,以及存在何种相关关系。

判断相关关系类型散点图的主要作用。

图:各种相关关系散点图

局限性:散点图只适用于两个变量的相关关系 判断(单相关关系),无法用于涉及多个变量的多重相关关系分析和偏相关关系分析。

四、相关分析

  • 相关分析是对变量之间的相关关系进行量化处理的过程,不仅要确定相关关系的类型,还要确定相关关系的强度

  • 相关分析不是一个从无到有的过程,也就是说,实质上没有相关关系的变量不会由于相关分析 而形成相关关系,相关分析只是起到揭示变量之间原本存在的相关关系 的作用。

  • 相关分析主要有以下几种类型:两变量的相关分析、偏相关分析和距离相关分析等。

4.1 量化指标

  • 显著性检验概率p:反映 没有线性相关关系的可能性,若检验概率p<0.05,则表示两个数据序列之间存在线性相关关系;

  • 相关系数r:反映相关关系的强度和方向;

确定简单线性相关系数及相伴概率值p是二元线性相关分析的主要 内容。

注意:相关关系 和 因果关系的区别。

4.1.1 相关系数

数据类型的不同直接导致适用的简单线性相关系数不同。

常用的 两个变量的简单线性相关系数有皮尔森(Pearson)相关系数、斯皮尔曼 (Spearman)相关系数和肯达尔(Kendall)相关系数

  • 这3种简单线性相关系数适用于不同的数据类型和总体情况。取值范围都在 [-1,1]

相关系数类型

数据类型

总体情况

原始数据要求

精确度

皮尔森(Pearson)

定距数据/定比数据(连续型变量)

正态分布

最高

斯皮尔曼 (Spearman)

定距数据/定比数据(连续型变量)

非正态分布

较差

肯达尔(Kendall)

定序数据

非正态分布

较差

4.1.1.1 皮尔森(Pearson)相关系数
  • 皮尔森相关系数适用于两列服从正态分布的定距数据(连续变量)。

  • 定距数据的要求是由皮尔森相关系数的原理决定的,而要求正态 分布的理由则依旧老套,只有服从正态分布的总体才是稳定总体,样本才能比较真实地反映总体的情况,分析的结果才有意义。

  • 除此之外,皮尔森相关系数还要求两列数据的个数相同且具有一一对应的关系。

假设有两个连续型变量X和Y,它们的数据是一一对 应的,即一个变量改变会引起另一个变量的改变,则表示两个变量相关 性的皮尔森相关系数r的计算公式为:

可以将上式进行简化:

- 代表变量X的样本均值;

- 代表变量Y的样本均值;

代表变量X和变量Y的协方差。 ( 其中,n-1表示自由度,等于两个变量的样本配对数减去1。)

关于协方差

协方差也是常用的反映两个连续型变量的相关性指标,它刻画了两 个连续型变量的相关关系方向:如果协方差的结果为负数,说明两个连 续型变量之间可能是负相关关系;反之,如果协方差的结果为正数,那么两个变量之间可能是正相关关系。

虽然协方差能够反映两个连续型变 量的相关方向,但是它却不能直接用来度量两个连续型变量的相关程度,因为协方差的值与两个变量的测量单位密切

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值