直线回归和相关------(一)回归和相关的概念与直线回归(含最小二乘推导)

一、回归与相关的概念

(1)函数关系与统计关系:两个或两个以上变数之间的关系可分为两类:函数关系和统计关系

函数关系是一种确定性关系,即一个变数的任一变量必与另一个变数的一个确定的数值相对应。两者之间的关系是完全确定的,函数关系不包含误差的干扰,常见于物理学、化学等。

统计关系是一种非确定关系,即一个变数的取值受到另一变数的影响,两者之间既有关系,但又不存在完全确定的函数关系。在实验科学中两类变数因受误差的干扰而表现为统计关系,在农学和生物学中常见。

(2)自变数与依变数:对具有统计关系的两个变数,可分别用变数符号Y、X表示。根据两个变数的作用特点,统计关系又分为因果关系和相关关系。

两个变数间的关系若具有原因和反映(结果)的性质,则称这两个变数间存在因果关系,并定义原因变数为自变数(independent variable),X表示;定义结果变数为依变数(dependent variable),Y表示。

如果两个变数并不是原因和结果的关系,而呈现一种共同变化的特点,则称这两个变数间存在相关关系。相关关系中并没有自变数和依变数之分。X,Y可分别表示任一变数。

相关关系:是指现象之间存在的非严格的、不确定的依存关系。这种关系特点:某一现象在数量上发生的变化会影响另一现象数量上的变化,且这种变化具有一定的随机性,即当给定某一现象以一个数值时,另一现象会有若干个数值与之对应,并且总是遵循一定规律,围绕这些数值的平均数上下波动,其原因是影响现象发生变化的因素不止一个。

相关关系不等同于因果关系,相关性表示两个变量同时变化,因果关系是一个变量导致另一个变量变化。

回归函数关系:是指现象之间存在的依存关系中,对于某一变量的每一个数值,都有另一变量值与之相对应,并且这种依存关系可用一个数学表达式反映出来。

                       

(3)回归分析和相关分析:统计关系与函数关系的根本区别,在于前者研究的是具有抽样误差的数据,而实验数据必须采用统计方法处理。对具有因果关系的两个变数,统计分析的任务是由实验数据推算得一个表示Y随X的改变而改变的方程。

相关分析与回归分析的联系与区别
相关分析与回归分析的联系相关分析与回归分析的区别
均以研究和测量两个或两个以上变量之间关系的方法。在实际工作中,一般先进行相关分析,计算相关系数,然后拟合回归模型,进行显著性检验,最后用回归模型推算或预测。
  • 相关分析研究的都是随机变量,且不分自变量与因变量,回归分析研究的变量有自变量与因变量之分,且自变量是确定的普通变量,因变量是随机变量。
  • 相关分析主要描述两个变量之间线性关系的密切程度,回归分析不仅可以揭示变量X对变量Y的影响大小,还可以由回归模型进行预测。

相关系数是反映变量之间线性相关强度的一个度量指标。

对具有相关关系的两个变数,统计分析的目的是计算目标Y和X的相关密切程度的统计数,并测其显著性。这一统计数在两个变数为直线相关时称为相关系数(correlation coefficient),在多元相关时称为复相关系数(multiple correaltion),在两个变数曲线相关时称相关指数(correalion index)。

相关系数与相关程度对应表
相关系数|r|取值范围相关程度
0\leqslant |r|\leqslant 0.3低度相关
0.3\leqslant |r|\leqslant 0.8中度相关
0.8\leqslant |r|\leqslant 1高度相关

 

回归分析:计算回归方程为基础的统计分析方法。回归分析模型包括线性回归(简单线性回归和多重线性回归)和非线性回归(对数转化成线性回归)。

线性回归分析五步法
  1. 根据预测目标,确定自变量和因变量
  2. 绘制散点图,确定回归模型类型
  3. 估计模型参数,建立回归模型
  4. 对回归模型进行检验
  5. 利用回归模型进行预测

相关分析:计算相关系数为基础的统计分析方法.是研究两个或两个以上随机变量之间相互依存关系的方向和密切程度的方法。

原则上两个变数中Y含有试验误差而X不含试验误差时着重进行回归分析;Y、X均含有试验误差时着重进行相关分析。但是,两者界限不是十分严格,因为回归分析中包含相关分析的信息,相关分析中也包含回归分析的信息。

(4)两个变数资料的散点图(scatter diagram ):对具有统计关系的两个变数的资料进行初步考察的简便而有效地方法。

X和Y相关的性质(正或负)和亲密程度。

X和Y的关系是直线型的还是非直线型的

是否有一些特殊的点表示着其他因素的干扰等

二、直线回归

(1)直线回归方程式

对于在散点图上呈直线趋势的两个变数,如果要概括其在数量上的互变规律,即从X的数量变化来预测或估计Y 的数量变化,则采用直线回归方程(linear regression equation)来描述。

                     \hat{y}=a+bx       读作:y依x的直线回归方程(regression equation of Y on X )

x是自变数,\hat{y}是和x的量相对应的依变数的点估计值;a是x=0时的\hat{y}值,回归直线在y轴上的截距,回归截距(regression intercept);b是x每增加一个单位数时,\hat{y}平均地将要增加或减少的单位数,叫回归系数/斜率(regression coefficient/slope)。

 最小二乘原理: Q=\sum (y-\hat{y})^{2}=\sum (y-a-bx)^{2}   为最小

分别对a和b求偏导数并令其为0,可获得正规方程组(normal equations):

 直线一定通过(\bar{x},\bar{y}) 坐标点?

                         \hat{y}=a+bx   and    a=\bar{y}-b\bar{x} 

                         \hat{y}=(\bar{y}-b\bar{x})+bx

                        \hat{y}=\bar{y}+b(x-\bar{x})

                        当x=\bar{x}时,\hat{y}=\bar{y}

            总有     \sum (\hat{y}-y)=0

(2)直线回归方程的计算

(3)直线回归的标准误

当Q为最小的直线回归方程和实测的观察点并不重合,表明回归方程仍存在随机误差。

Q是误差的一种度量,称离回归平方和(sum of squares due to deviation from regression)或剩余平方和。

由于在建立回归方程时用了a,b两个统计数,故Q的自由度v=n-2.(自由度:样本内独立而能自由变动的离均差个数。)

回归方程的估计标准误s_{y/x}:s_{y/x}=\sqrt{\frac{Q}{n-2}}=\sqrt{\frac{\sum (y-\hat{y})^{2}}{n-2}}

特点:各个观察点愈靠近回归线,s_{y/x}愈小,当各个观察点都落在回归线上时,s_{y/x}=0;各观察点在回归线上下分散的愈远,s_{y/x}愈大。样本的s_{y/x}是回归精确度的度量,s_{y/x}愈小,回归方程估计y的精确度愈高。

后三种计算方式里有三级数据a,b,所以存在误差。

(4)直线回归的数学模型和基本假定

回归分析的依据是直线回归模型。在这一模型中,Y总体的每一个值由以下三部分组成:回归截距\alpha,回归系数\beta,Y变数的随机误差\varepsilon

总体直线回归的数学模型可表示为:  Y_{j}=\alpha +\beta X_{j}+\varepsilon_{j}         其中,\varepsilon _{j}\sim N(0,\sigma _{\varepsilon }^{2})

样本线性组成为:y_{j}=a+b x_{j}+e_{j}

按上述模型进行回归分析时,假定:

(1)Y变数是随机变数,而X变数则是没有误差的固定变数,至少和Y变数比起来X 的误差小到可以忽略。

(2)在任一X上都存在着一个Y总体(条件总体),它是作正态分布的,其平均数\mu _{Y/X}是X的线性函数,其方差与X无关。

\mu _{Y/X}=\alpha +\beta X  (\hat{y}=a+bx

\mu _{Y/X}的样本估计值\hat{y}\hat{y}与X的关系就是线性回归方程\hat{y}=a+bx

(3)所有的Y总体都具有共同方差\sigma _{\varepsilon }^{2},这一方差不因X的不同而不同,而直线回归总体具有N(\alpha +\beta X,\sigma _{\varepsilon }^{2})。试验所得的一组观察值(xi,yi)只是N(\alpha +\beta X,\sigma _{\varepsilon }^{2})中的一个随机样本。

(4)随机误差\varepsilon相互独立,并作正态分布,具有\varepsilon _{j}\sim N(0,\sigma _{\varepsilon }^{2})

模型中的参数共有\alpha,即直线的截距;\beta,直线斜率;\sigma _{\varepsilon }^{2}误差的方差。样本的相应估计值为a,b和s_{y/x}

基于上述模型和假定,有助于正确地进行回归分析。

广义线性模型:Y不是正态分布

一般线性模型:X不是连续或正态分布

三、多重线性回归

多重线性回归模型(multiple linear regression)是指包含一个因变量和多个自变量的回归模型

多元线性回归(multivariate linear regression)是指包含两个或两个以上因变量的回归模型

  • 7
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值