相关分析,顾名思义,研究变量间是否存在依存关系,并对这种关系进行度量,具体分类有线性相关分析,偏相关分析,距离分析,重点介绍线性相关分析
****线性相关分析****
①Pearson相关系数(要求变量服从正态分布)
公式:,注意在这里说明一下协方差cov(X,Y),
,大于0说明正相关,小于0说明负相关,协方差反应两个随机变量的相关程度(即指两个变量变化方向,正相关说明X变大Y跟着变大),注意这里说的是相关程度,而不是关联程度,协方差只告诉我们了相关程度,关联程度(两变量间的线性关系)需要靠皮尔逊系数度量,即用协方差除以两变量标准差乘积,其值再-1到1之间,趋于-1或1时线性关系越强。
(引用自百度百科-正相关),这个图就是典型的正相关但却没有线性关系
②Spearman秩相关系数(不要求服从正态分布)
对变量总体分布没有要求,公式:,di = Ri-Qi,Ri是yi的秩次,Qi是xi的秩次。
****偏相关性分析****
指n-1个变量与第n个变量均相关时,将n-1个变量中固定n-2个变量,研究这剩下一个变量与第n个变量的相关性
****距离分析***
具体有欧氏距离,卡方检验等,在博客中另有介绍。