相关性分析

随机变量之间的相关关系的分类:

  1. 相关方向:正相关和负相关
  2. 相关形式:线性相关和非线性相关
  3. 相关程度:完全相关、不完全相关和不相关
  4. 按照影响因素的多少:单相关和复相关

单相关的影响因素是单个变量,复相关的影响因素是多个变量;

偏相关指的是控制其他的变量不变,只研究两个变量之间的关系。

5种常用的相关分析方法分类:

  1. 图表相关性分析:折线图和散点图。

折线图:与时间或类似时间的因素作为横坐标,另外两个变量分别作为纵坐标,画出两条折线,观察这两条折线之间的变化趋势,看是否符合相关关系。

散点图:两个变量一个当做x,另一个做y,观察趋势

2.协方差和协方差矩阵

如果两组数据的变化趋势一致,协方差就是正值。如果变化趋势相反,协方差就是负值。如果两个变量独立,协方差就是0。

 

如果是三组数据,就需要用协方差矩阵。

 

3.相关系数

相关系数是反应变量密切程度的指标,取值在-1到1之间,1表示两个变量完全线性相关,-1表示两个变量完全负相关,0表示两个变量不相关。数据越趋近于0,表示相关关系越弱。

 

其中rxy表示样本相关系数,Sxy表示样本协方差,Sx表示x的标准差。由于是样本协方差和样本标准差,因此分母使用的是n-1。

 

 

4.一元回归及多元回归

 

 

上面是两个变量,下面是多个变量:

 

5.信息熵及互信息

影响因素不止是数值形式,可能还有一些其他的形式,可能是特征值。

度量这些文本特征值相关关系的方法就是互信息。

总结:图标方法更为直观,相关系数方法可以看到两两变量的相关性,回归方程可以对相关系数进行提炼,并生成模型进行预测,互信息可以对文本类特征的相关关系进行度量。

详细可以参考:http://bluewhale.cc/2016-06-30/analysis-of-correlation.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值