相关分析与回归分析

相关分析(correlation analysis),相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法


1简介编辑

相关关系是一种非确定性的关系,例如,以X和Y分别记一个人的身高和体重,或分别记每 公顷施肥量与每公顷 小麦产量,则X与Y显然有关系,而又没有确切到可由其中的一个去精确地决定另一个的程度,这就是相关关系。

2分类编辑

1、 线性相关分析:研究 两个变量线性关系的程度。用 相关系数r来描述。
(1)正相关:如果x,y变化的方向一致,如身高与体重的关系,r>0;一般地,
·|r|>0.95 存在显著性相关;
·|r|≥0.8 高度相关;
·0.5≤|r|<0.8 中度相关;
·0.3≤|r|<0.5 低度相关;
·|r|<0.3 关系极弱,认为不相关
(2) 负相关:如果x,y变化的方向相反,如吸烟与肺功能的关系,r<0;
(3)无线性相关:r=0。
如果变量Y与X间是 函数关系,则r=1或r=-1;如果变量Y与X间是统计关系,则-1<r<1。
(4)r的计算有三种:
①Pearson相关系数:对定距 连续变量的数据进行计算。
②Spearman和Kendall相关系数:对 分类变量的数据或变量值的分布明显非正态或分布不明时,计算时先对 离散数据进行排序或对定距变量值排(求)秩。
2、 偏相关分析:研究两个变量之间的线性相关关系时,控制可能对其产生影响的变量。如控制年龄和工作经验的影响,估计工资收入与受教育水平之间的 相关关系
3、距离分析:是对观测量之间或变量之间相似或不相似程度的一种测度,是一种广义的距离。分为观测量之间距离分析和变量之间距离分析。
(1)不相似性测度:
·a、对等间隔(定距)数据的不相似性(距离)测度可以使用的统计量有Euclid 欧氏距离、欧氏距离平方等。
·b、对计数数据使用卡方。
·c、对二值(只有两种取值)数据,使用 欧氏距离、欧氏距离平方、尺寸差异、模式差异、 方差等。
(2) 相似性测度:
·a、等间隔数据使用统计量Pearson相关或余弦。
·b、测度二元数据的相似性使用的统计量有20余种。

3相关关系编辑

相关分析与回归分析在实际应用中有密切关系。然而在回归分析中,所关心的是一个 随机变量Y对另一个(或一组)随机变量X的依赖关系的 函数形式。而在相关分析中 ,所讨论的变量的地位一样,分析侧重于随机变量之间的种种相关特征。例如,以X、Y分别记小学生的数学与语文成绩,感兴趣的是二者的关系如何,而不在于由X去预测Y。

4复相关编辑

研究一个变量 x0与另一组变量 (x1,x2,…,xn)之间的相关程度。例如,职业声望同时受到一系列因素(收入、文化、权力……)的影响,那么这一系列因素的总和与职业声望之间的关系,就是复相关。 复相关系数R0.12…n的测定,可先求出 x0对一组变量x1,x2,…,xn的 回归直线,再计算x0与用回归直线估计值悯之间的简单直线回归。 复相关系数
R0.12…n的 取值范围为0≤R0.12…n≤1。复相关系数值愈大,变量间的关系愈密切。

5偏相关编辑

研究在多变量的情况下,当控制其他变量影响后,两个变量间的 直线相关程度。又称净相关或部分相关。例如, 偏相关系数 r13.2表示 控制变量 x2的影响之后,变量 x1和变量 x3之间的 直线相关偏相关系数较简单直线相关系数更能真实反映两变量间的联系。
偏相关系数复相关系数、简单直线相关系数之间存在着一定的关系。以3个变量 x1, x2, x3为例,它们有如下的关系:
公式
公式

6定序变量编辑

讨论两个定序变量间的相关的程度与方向。又称等级相关。例如,研究夫妇双方文化程度的相关等。等级相关系数有 R系数和 γ系数。
R系数  计算方法与简单直线相关系数相同。 式中
公式
X, Y分别为 x, y的测量值的等级。
英国统计学家 C.E.斯皮尔曼从 R系数中推导出简捷式,称斯皮尔曼等级相关系数:
公式
式中 di= xi- yi, i=1,2,…, NN为次数)。
等级相关系数 R具有与简单 直线相关相同的性质: 取值范围在〔-1,+1〕之间; R的绝对值愈大,变量间的等级相关程度愈大。
γ 系数  适用于资料次数 N 很大的情况。
公式
式中 Ns为同序对数目, Nd为异序对数目。
同序对表示两个个案( xi, yi)和( xj, yj)相比时,具有 xi> xj,则 yi> yj的性质;反之,若 xi> xj,但 yi< yj,则称作一个异序对。
γ系数的 取值范围在〔-1,+1〕之间。 γ的绝对值愈大,变量间的等级相关程度愈大。


回归分析(regression analysis)是确定两种或两种以上 变量间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的自变量的多少,可分为 一元回归分析和 多元回归分析;按照 自变量因变量之间的关系类型,可分为 线性回归分析和 非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是 线性关系,则称为 多元线性回归分析。
中文名
回归分析
外文名
regression analysis
类    别
统计分析方法
应    用
研究现象之间相关程度

1定义

回归分析是应用极其广泛的 数据分析方法之一。它基于观测数据建立变量间适当的依赖关系,以分析数据内在规律,并可用于 预报、控制等问题。
方差齐性
效应累加
变量无测量 误差
变量服从多元 正态分布
观察独立
模型完整(没有包含不该进入的变量、也没有漏掉应该进入的变量)
误差项独立且服从(0,1) 正态分布
现实数据常常不能完全符合上述假定。因此, 统计学家研究出许多的 回归模型来解决线性回归模型假定过程的约束。
研究一个或多个 随机变量Y1 ,Y2 ,…,Yi与另一些变量X1、X2,…,Xk之间的关系的 统计方法,又称多重回归分析。通常称Y1,Y2,…,Yi为因变量,X1、X2,…,Xk为自变量。回归分析是一类数学模型,特别当因变量和自变量为线性关系时,它是一种特殊的线性模型。最简单的情形是一个自变量和一个因变量,且它们大体上有线性关系,这叫一元线性回归,即模型为Y=a+bX+ε,这里X是自变量,Y是因变量,ε是 随机误差,通常假定随机误差的 均值为0, 方差为σ^2(σ^2大于0)σ^2与X的值无关。若进一步假定随机误差遵从 正态分布,就叫做正态线性模型。一般的情形,它有k个自变量和一个因变量,因变量的值可以分解为两部分:一部分是由于自变量的影响,即表示为自变量的 函数,其中函数形式已知,但含一些未知 参数;另一部分是由于其他未被考虑的因素和 随机性的影响,即 随机误差。当函数形式为未知参数的线性函数时,称线性回归分析模型;当函数形式为未知参数的 非线性函数时,称为 非线性回归分析模型。当自变量的个数大于1时称为多元回归,当因变量个数大于1时称为多重回归。
回归分析的主要内容为:
①从一组数据出发,确定某些变量之间的定量关系式,即建立 数学模型并估计其中的未知参数。估计参数的常用方法是 最小二乘法
②对这些关系式的可信程度进行检验。
③在许多自变量共同影响着一个因变量的关系中,判断哪个(或哪些)自变量的影响是显著的,哪些自变量的影响是不显著的,将影响显著的自变量选入模型中,而剔除影响不显著的变量,通常用逐步回归、向前回归和向后回归等方法。
④利用所求的关系式对某一生产过程进行预测或控制。回归分析的应用是非常广泛的,统计 软件包使各种回归方法计算十分方便。
在回归分析中,把变量分为两类。一类是因变量,它们通常是实际问题中所关心的一类指标,通常用Y表示;而影响因变量取值的的另一类变量称为自变量,用X来表示。
回归分析研究的主要问题是:
(1)确定Y与X间的定量关系表达式,这种表达式称为回归方程;
(2)对求得的回归方程的可信度进行检验;
(3)判断自变量X对因变量Y有无影响;
(4)利用所求得的回归方程进行预测和控制。

2应用

相关分析研究的是现象之间是否相关、相关的方向和密切程度,一般不区别自变量或因变量。而回归分析则要分析现象之间相关的具体形式,确定其因果关系,并用 数学模型来表现其具体关系。比如说,从相关分析中我们可以得知“质量”和“用户满意度”变量密切相关,但是这两个变量之间到底是哪个变量受哪个变量的影响,影响程度如何,则需要通过回归分析方法来确定。
一般来说,回归分析是通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各个参数,然后评价回归模型是否能够很好的拟合实测数据;如果能够很好的拟合,则可以根据自变量作进一步预测。
例如,如果要研究质量和用户满意度之间的因果关系,从实践意义上讲, 产品质量会影响用户的满意情况,因此设用户满意度为因变量,记为Y;质量为自变量,记为X。根据图8-3的 散点图,可以建立下面的线性关系: Y=A+BX+§
式中:A和B为待定参数,A为 回归直线的截距;B为回归直线的斜率,表示X变化一个单位时,Y的平均变化情况;§为依赖于用户满意度的 随机误差项
对于经验回归方程: y=0.857+0.836x
回归直线在y轴上的截距为0.857、斜率0.836,即质量每提高一分,用户满意度平均上升0.836分;或者说质量每提高1分对用户满意度的贡献是0.836分。
上面所示的例子是简单的一个自变量的线性回归问题,在数据分析的时候,也可以将此推广到多个自变量的多元回归,具体的回归过程和意义请参考相关的 统计学书籍。此外,在SPSS的结果输出里,还可以汇报R2,F检验值和T检验值。R2又称为方程的确定性系数(coefficient of determination),表示方程中变量X对Y的解释程度。R2取值在0到1之间,越接近1,表明方程中X对Y的解释能力越强。通常将R2乘以100%来表示回归方程解释Y变化的百分比。F检验是通过 方差分析表输出的,通过显著性水平(significant level)检验回归方程的线性关系是否显著。一般来说,显著性水平在0.05以上,均有意义。当F检验通过时,意味着方程中至少有一个回归系数是显著的,但是并不一定所有的回归系数都是显著的,这样就需要通过T检验来验证回归系数的显著性。同样地,T检验可以通过显著性水平或查表来确定。在上面所示的例子中,各参数的意义如表8-2所示。
线性回归方程检验
指标
显著性水平
意义
 
R2
0.89
 
“质量”解释了89%的“用户满意度”的变化程度
F
276.82
0.001
回归方程的线性关系显著
T
16.64
0.001
回归方程的系数显著
示例 SIM手机用户满意度与相关变量线性回归分析
我们以SIM手机的用户满意度与相关变量的线性回归分析为例,来进一步说明线性回归的应用。从实践意义讲上,手机的用户满意度应该与产品的质量、价格和形象有关,因此我们以“用户满意度”为因变量,“质量”、“形象”和“价格”为自变量,作线性回归分析。利用SPSS软件的回归分析,得到回归方程如下:
用户满意度=0.008×形象+0.645×质量+0.221×价格
对于SIM手机来说,质量对其用户满意度的贡献比较大,质量每提高1分,用户满意度将提高0.645分;其次是价格,用户对价格的评价每提高1分,其满意度将提高0.221分;而形象对产品用户满意度的贡献相对较小,形象每提高1分,用户满意度仅提高0.008分。
方程各检验指标及含义如下:
指标
显著性水平
意义
 
R2
0.89
 
“质量”和“形象”解释了89%的“用户满意度”的变化程度
F
248.53
0.001
回归方程的线性关系显著
T(形象)
0.00
1.000
“形象”变量对回归方程几乎没有贡献
T(质量)
13.93
0.001
“质量”对回归方程有很大贡献
T(价格)
5.00
0.001
“价格”对回归方程有很大贡献
从方程的检验指标来看,“形象”对整个回归方程的贡献不大,应予以删除。所以重新做“用户满意度”与“质量”、“价格”的回归方程如下: 满意度=0.645×质量+0.221×价格
用户对价格的评价每提高1分,其满意度将提高0.221分(在本示例中,因为“形象”对方程几乎没有贡献,所以得到的方程与前面的回归方程系数差不多)。
方程各检验指标及含义如下:
指标
显著性水平
意义
 
R
0.89
 
“质量”和“形象”解释了89%的“用户满意度”的变化程度
F
374.69
0.001
回归方程的线性关系显著
T(质量)
15.15
0.001
“质量”对回归方程有很大贡献
T(价格)
5.06
0.001
“价格”对回归方程有很大贡献

3步骤编辑

确定变量

明确预测的具体目标,也就确定了 因变量。如预测具体目标是下一年度的 销售量,那么销售量Y就是因变量。通过 市场调查和查阅资料,寻找与预测目标的相关影响因素,即自变量,并从中选出主要的影响因素。

建立预测模型

依据自变量和因变量的历史统计资料进行计算,在此基础上建立回归分析方程,即回归分析预测模型。

进行相关分析

回归分析是对具有因果关系的影响因素(自变量)和预测对象(因变量)所进行的 数理统计分析处理。只有当变量与因变量确实存在某种关系时,建立的回归方程才有意义。因此,作为自变量的因素与作为因变量的预测对象是否有关,相关程度如何,以及判断这种相关程度的把握性多大,就成为进行回归分析必须要解决的问题。进行 相关分析,一般要求出相关关系,以 相关系数的大小来判断自变量和因变量的相关的程度。

计算预测误差

回归预测模型是否可用于实际预测,取决于对回归预测模型的检验和对预测误差的计算。回归方程只有通过各种检验,且预测误差较小,才能将回归方程作为预测模型进行预测。

确定预测值

利用回归预测模型计算预测值,并对预测值进行综合分析,确定最后的预测值。

4注意问题编辑

应用回归预测法时应首先确定变量之间是否存在相关关系。如果变量之间不存在相关关系,对这些变量应用回归预测法就会得出错误的结果。
正确应用回归分析预测时应注意:
①用定性分析判断现象之间的依存关系;
②避免回归预测的任意外推;
③应用合适的数据资料;

两者的区别为: 
       回归和相关都是研究两个变量相互关系的分析方法。相关分析研究两个变量之间相关的方向和相关的密切程度。但是相关分析不能指出两变量相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化关系。回归方程则是通过一定的数学方程来反映变量之间相互关系的具体形式,以便从一个已知量来推测另一个未知量。为估算预测提供一个重要的方法。具体区别有:

        ①相关分析中变量之间处于平等的地位;回归分析中,因变量处在被解释的地位,自变量用于预测因变量的变化;

②相关分析中不必确定自变量和因变量,所涉及的变量可以都是随机变量;而回归分析则必须事先确定具有相关关系的变量中,哪个是因变量,哪个是因变量。一般来说,回归分析中因变量是随机变量,而把自变量作为研究时给定的非随机变量;

③相关分析研究变量之间相关的方向和相关的程度,但相关分析不能根据一个变量的变化来推测另一个变量的变化情况;回归分析是研究变量之间相互关系的具体表现形式,根据变量之间的联系确定一个相关的数学表达式,从而可以从已知量来推测未知量。

④对两个变量来说,相关分析中只能计算出一个相关系数;而回归分析中有时可以根据研究目的的不同建立两个不同的回归方程。

两者的联系为:

相关分析与回归分析是广义相关分析的两个阶段,两者有着密切的联系 :

  ①相关分析是回归分析的基础和前提,回归分析则是相关分析的深入和继续。相关分析需要依靠回归分析来表现变量之间数量相关的具体形式,而回归分析则需要依靠相关分析来表现变量之间数量变化的相关程度。只有当变量之间存在高度相关时,进行回归分析寻求其相关的具体形式才有意义。如果在没有对变量之间是否相关以及相关方向和程度做出正确判断之前,就进行回归分析,很容易造成“虚假回归”。

②由于相关分析只研究变量之间相关的方向和程度,不能推断变量之间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况,因此,在具体应用过程中,只有把相关分析和回归分析结合起来,才能达到研究和分析的目的。
  • 2
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值