数据处理的方法有很多,主要分为三大类:描述统计、相关分析和判别分析。这里接着介绍数据处理方法中第二类方法--相关分析。
1什么是相关分析?
相关分析指的是对于客观现象具有的相关性进行的研究分析。主要用于确定两个或者多个变量之间是否存在相关关系,存在相关关系的一个密切程度是怎样的、存在的相关关系的形式(线性关系和非线性关系)、及存在相关关系的方向(正相关或负相关)。
同时,为了更好的了解相关分析,需要知道一个重要的概念,即相关关系和因果关系是不同的。因果关系强调的是变量之间的一个作用关系,即一个变量(即‘因’)导致第二个变量(即‘果’)的发生。即原因必须在结果之前发生,且原因是导致结果的必然条件。而相关关系强调的是一种依存关系,当一个变量发生变化时,另外一个变量也可能随之发生关系,但是这种变化不一定是前因后果的关系。
2相关分析方法具体有什么作用?
2.1 预测和估计
可以利用相关分析进行预期和估计。例如,如果知道经济增长和失业率之间存在负相关关系,那么根据经济增长的情况就可以估计失业率的变化趋势。
2.2 辅助决策
相关分析可以帮助企业管理者或者政策制定者等领域者制定更加科学合理的决策方案。例如如果知道了银行好坏用户受哪些因素的影响比较大,在贷款审批和投放环节决策者就会通过制定合适的风控策略或政策来规避这些坏用户,从而实现风险可控的情况下收益最大化。
3相关分析方法具体有哪些?
相关分析的核心在于了解变量之间的相关程度、形式和方向,因此围绕相关程度、形式和方向的获取主要有以下几种常用的分析方法(方法比较多,列举最常见):
3.1协方差和协方差矩阵
协方差反映两个随机变量的协同变化的线性关系。因此,协方差用于判断线性关系,非线性关系无法判断。同时,协方差只能判断两个变量之间的关系,多个变量之间的关系无法判断。如果两个变量不线性相关,则协方差为0,而当两个变量线性相关时候,协方差不为0,协方差值的正负代表两个变量的相关关系的正负方向。协方差的具体值的大小可以反映两个变量之间变化程度的大小,但是它不能单独用来确定两个变量之间是否存在严格程度的线性关系,因此协方差数值并没有一个固定的范围,它的取值范围取决于两个变量的数据分布以及他们之间的线性关系。
协方差的公式:cov(x,y)=E((x-E(x))*(y-E(y)),即两个变量分别和自己本身的期望做差再相乘,再对乘积取期望。当其中一个变量取值大于自身期望,而另外一个变量取值同样大于自身期望,两者相乘为正,即代表两个变量的协方差为正,线性关系为正相关,反之则亦然。
协方差矩阵用于分析多组数据之间的相关性,通过矩阵形式反映不同变量间的协方差。
3.2 pearson相关系数
皮尔逊相关系数也称为皮尔逊积矩相关系数,是一种用于度量两个连续变量X和Y之间线性相关程度的统计方式。因此,根据定义可知,1)皮尔逊相关系数只能判定两个变量之间的相关性,2)且判定的是线性相关的情况,无法对非线性相关性进行判定,3)适合于连续变量,如果是有序变量或者名义分类变量结果可能不准确。皮尔逊相关系数的取值范围为-1到1。1表示两个变量完全正相关,-1表示两个变量完全负相关,0表示两个变量之间没有线性关系。
皮尔逊相关系数的公式简单表达为:
从公式可以看出,分子为同样可以判定两变量相关关系的协方差,但是由于协方差的大小并不能很好的判定两个变量相关程度的大小,受到两个变量量纲的影响,并不适合进行比较。因此,引入了两个随机变量的标准差来消除量纲的影响。
3.3 spearman相关系数
斯皮尔曼相关系数用于衡量两个变量之间的单调关系强度和方向,适用于有序或等级变量且是两变量之间的相关性。通过定义可知,1)斯皮尔相关系数对于有序变量或者等级变量之间的相关性分析比较适用,当然对于连续型变量同样适用2)适用于判定两变量之间的相关性,多变量无法直接判定3)不限定变量之间是线性关系还是非线性关系,因为斯皮尔曼相关系数是一种用于评估两个变量的单调方向和单调程度,不考虑他们之间的具体函数关系。
斯皮尔曼相关系数公式:
其中,di是i个数据点x的排名和y的排名之间的差值,在计算过程中,首先需要对两个变量的观测值进行排序,并赋予他们秩次(即排序后的位置),然后计算每对观测值秩次之间的差di,并将这些差的平方和相加得到,n是数据点的个数。通过公式,可以总结两点:1)斯皮尔曼相关系数的取值范围为-1到1,其中-1代表完全的负单调关系,1代表完全的正单调关系,0代表没有单调关系;2)斯皮尔曼系数是一个非参数方法,不需要假设数据是符合特定的数据分布,也不依赖于数据的具体值,仅仅基于变量的排名。
3.4 kenda相关系数
肯德尔相关系数也是用于评估有序两变量之间的相关性。在很大程度上和斯皮尔曼相关系数相类似,重点讲下不同点。
肯德尔相关系数的公式:
Nc表示一致对数,Nd表示非一致对数,n*(n-1)/2表示所有样本两两组合的数量,当没有重复值时,组合数量等于Nc+Nd,肯德尔相关系数与斯皮尔曼相关系数不同的是,它是基于变量值的排序后对成对观测值的比较,两者采用的具体计算系数的方法还有有显著的差异的。
3.5 信息增益
信息增益用来评估一个变量引入后,系统信息的不确定性减少的程度,信息增益越大,表示两个变量的相关性越大。常用来作为特征选择算法,它通过计算每个特征的信息增益来衡量其重要性。因此,信息增益直接计算的是单个变量与目标变量之间的相关性,但是虽然信息增益不直接用于分析多个变量之间的相关性,但是可以通过特征选择方法间接的评估多个变量和目标变量之间的相关性。在信息增益的计算中,重点关注的是特征如何减少目标变量的不确定性,而不是特征与目标变量之间的相关性方向,因此信息增量无法判定相关性正负方向。
3.6 回归分析
回归分析是确定两组或者两组以上的变量间相关关系的统计方法,它通过建立数学模型来描述自变量和因变量之间的关系。回归分析从变量的多少分类包括一元回归分析和多元回归分析,分别解决的是两变量和多变量之间的相关关系。回归分析从相关关系的形式分类包括线性回归分析和非线性回归分析。回归分析的应用非常广泛,既适用于连续变量,又适用于分类或者有序变量,当目标变量为二分类变量时,通常采用逻辑回归模型。当然回归分析的模型有很多种,其中包括线性回归、多项式回归、岭回归、套索回归、弹性网回归、非线性回归等等,每种模型都有它适用的特定场景,这里暂时不做赘述,后续可以专门讨论。
3.7 卡方检验
卡方检验主要用于分析实际观察频数和理论频数之间是否存在显著差异,从而判断两个变量之间是否独立或者相关。(虽然卡方检验是针对两两变量的,但是可以通过两两比较的方式,间接分析多个变量之间的相关关系,当然这种多变量并不是严格意义上综合的、多变量的相关性)。卡方检验主要分为以下几个步骤:收集数据、构建列联表(其中行代表一个变量的分类,列代表另外一个变量的分类,表中的单元格记录了每个分类组合的观察频数)、计算期望频数、计算卡方统计量、确定自由度并查找临界值,比较与判断。因此,卡方检验主要用于分类变量的相关分析,不直接应用于连续变量。具体每个步骤如何做,这里暂时不做赘述,后续可以专门讨论。
3.8 偏相关分析
偏相关分析用于在控制其他变量影响的情况下,分析两个变量之间的线性相关关系。计算偏相关系数需要特定的公式和软件进行,在控制一个变量时,计算的就是一阶偏相关系数,控制两个变量时,计算的就是二阶相关系数。具体的计算步骤这里不赘述,后续可以单独讨论。
总之,在实际应用中,应该根据数据类型、研究目标和假设条件选择合适的相关分析方法。
4相关分析方法的优劣势?
优势:
4.1 消除变量影响:相关分析可以帮助研究者消除或者控制其他变量的影响,从而更准确的分析两个变量之间的直接关系。
4.2 减少指标选择:通过相关分析可以筛选出与目标变量最为相关的变量,从而减少不必要的变量的选择,简化分析流程。
4.3 保留绝大部分信息:相关分析可以保留绝大部分有用信息,使得分析结果更加全面准确。
4.4 适用性强:相关分析不仅适用于线性关系,也适用于非线性关系,因此具有比较强的适用性。
劣势:
4.5 解释含义模糊:相关分析能够判定变量之间的相关性,但是往往不能直接解释这种关系的具体原因或者机制。因此,在解释分析结果时候,需要谨慎结合其他分析方法进行综合阐述。
4.6 受样本量影响:相关分析往往在样本充足的时候分析结果较为准确,如果样本量欠缺,会造成分析结果不准。
4.7 可能受到异常值的影响:数据中的异常值,包括缺失值,极值可能会对分析结果产生比较大的影响,导致分析结果偏离实际情况,因此在分析之前,做好数据清洗和预处理很重要。