【数据挖掘知识点七】相关与回归分析

相关与回归分析

客观现象之间的数量联系存在两种不同类型:一种是函数关系,另一种是相关关系。当一个或几个变量取一定的值时,另一个变量有确定值与之对应,这种关系称为确定性的函数关系,一般把作为影响因素的变量称为自变量,把发生对应变化的变量称为因变量。当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律在一定的范围内变化,变量间的这种相互关系,称为具有不确定性的相关关系。

变量之间的函数关系和相关关系,在一定条件下是可以互相转化的。客观现象的函数关系可以用数学分析的方法去研究,而研究客观现象的相关关系必须借助于统计学中的相关和回归分析方法。

客观现象的相关关系,按相关的程度可分为完全相关、不完全相关、不相关,按相关的方向分为正相关和负相关,按相关的形式分为线性相关和非线性相关,按所研究的变量多少分为单相关、复相关、偏相关。

相关分析与回归分析是研究现象之间相关关系的两种基本方法。相关分析,是用一个指标来表明现象间相互依存的密切程度。回归分析,是根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变化关系。

相关分析和回归分析有共同的研究对象,可互相补充,相关分析依靠回归分析来表明现象数量相关的具体形式;而回归分析依靠相关分析来表明现象数量变化的相关程度。只有当变量之间存在高度相关时,进行回归分析寻求其相关的具体形式才有意义,基于这个原因,回归分析和相关分析也一同合称为相关关系分析。

不过回归分析和相关分析在研究目的和方法上还是有区别的。相关分析研究变量之间相关的方向和相关的程度,但是相关分析不能指出变量间相关关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况。回归分析则研究变量之间相互关系的具体形式,对具有相关关系的变量之间的数量联系进行测定,从而为估算和预测提供一个重要方法。因此,相关分析不必确定变量中那个是自变量,那个是因变量,其所涉及的变量可以都是随机变量;而回归分析必须实现研究确定具有相关关系的变量中那个为自变量那个为因变量。一般地说,回归分析中因变量是随机的,而把自变量作为研究时给定的非随机变量。

相关图,或说是散点图,是研究相关关系的直观工具,一般在进行详细的定量分析之前,可以先利用它对现象之间存在的相关关系的方向、形式和密切程度做大致的判断。

单相关分析是对两个变量之间的线性相关程度进行分析。单相关分析所采用的尺度为单相关系数,简称相关系数。

在实际的客观现象分析研究中,相关系数一般都是利用样本数据计算的,因而带有一定随机性。样本容量越小其可信程度就越差,因此也需要进行检验。相关系数的显著性检验问题可分为两类:一是对总体相关系数是否等于0进行检验;二是对总体相关系数是否等于某一个给定的不为0的数值进行检验。

当变量之间存在显著的相关关系时,可以利用一定的数学模型对其进行回归分析。在回归分析中,最简单的模型是只有一个因变量和一个自变量的线性回归模型,即一元线性回归模型,又称简单线性回归模型。该模型假定因变量Y主要受自变量X的影响,它们之间存在这近似的线性函数关系,即有:

回归模型中的参数估计出来之后,需进行检验。回归模型的检验包括理论意义检验、一级检验、二级检验。一级检验也称为统计学检验,是利用统计学中抽样理论来检验样本回归方程的可靠性,具体可分为拟合程度评价和显著性检验。二级检验又称为经济计量学检验,是对标准线性回归模型的假定条件能否得到满足进行检验,具体包括序列相关检验、异方差性检验、多重共线性检验等。所谓拟合程度,是指样本观测值聚集在样本回归线周围的紧密程度。显著性检验包括两方面,一个是对各回归系数的显著性检验,二是对整个回归方程的显著性检验。

建立回归模型的重要目的是进行预测。如果所拟合的样本回归方程经过检验,被认为具有经济意义,同时被证明具有较高的拟合程度,就可以利用其进行预测。预测可能存在误差,主要来自模型本身中的误差因素、回归系数估计值和真值不一致、自变量X的设定值与实际值的偏离、未来总体回归系数发生变化四个方面。

研究在线性相关条件下,两个和两个以上自变量对一个因变量的数量变化关系,称为多元线性回归,表现这一数量关系的数学公式,称为多元线性回归模型。多元线性回归模型是一元线性回归模型的扩展,基本原理类似,计算复杂度增大。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值