数据学习(十二)-回归分析

1.一元线性回归

2.多元线性回归

一元线性回归

1.1.1 变量间的关系

相关与回归是处理变量之间关系的一种统计方法。从所处理的变量多少来看,如果研究的是两个变量之间的关系,称为简单相关与回归分析;如果研究的是两个以上变量之间的关系,称为多元回归分析。从变量之间的关系形态上看,有线性与非线性回归分析。
变量间的关系
变量之间存在不确定数量关系,称为相关关系。

1.1.2 相关关系的描述与测度

1.散点图
相关分析就是对两个变量之间线性关系的描述与度量。对于;两个变量x和y,通过观察或试验可以得到若干组数据,记为(xi,yi)。
用坐标的水平轴代表变量x,纵轴代表因变量y,每组数据(xi,yi)在坐标系中用同一个点表示,n组数据在坐标系中形成的n个点称为散点,由坐标及其散点形成的二位数据图称为散点图。
2. 相关系数
根据样本数据计算的对两个变量之间线性关系强度的度量值,称为相关系数。若相关系数是根据总体全部数据计算的,称为总体相关系数,记为p;若是根据样本数据计算的,则成为样本相关系数,记为r。相关系数的计算公式为:
在这里插入图片描述
为根据原始数据计算r,可由公式简化为:
在这里插入图片描述
相关关系的显著性检验
一般情况下,总体相关系数p是未知的,我们通常使根据样本相关系数r作为p的近似估计值。
1.r的抽样分布
在这里插入图片描述
2 r的显著性检验
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

1.2 一元线性回归

回归分析主要解决以下几个方面的问题:从一组样本数据出发,确定变量之间的数学关系式;对这些关系式的可行程度进行各种统计检验,并从影响某一特定变量侧诸多变量中找出哪些变量的影响是显著的,哪些不是显著的;利用所求的关系式,根据一个或几个变量的取值来估计或预测另一个特定变量的取值,并给出这种估计或预测的置信度。

1.2.1 一元线性回归模型
回归模型
在回归分析中,被预测或被解释的变量,称为因变量,用y表示。
在回归分析中,用来预测或用来解释因变量的一个或多个变量,称为自变量,用他个x表示。
描述因变量y如何依赖于自变量x和误差项e的方程,称为回归模型。只设计一个自变量的一元线性回归模型可表示为:
在这里插入图片描述
回归方程
描述因变量y的期望值如何依赖于自变量x的方程,称为回归方程。
一元线性回归方程的形式为:
在这里插入图片描述
估计的回归方程
利用最小二乘法,根据样本数据求出回归方程的估计,称为估计的回归方程。
对于一元线性回归,估计的回归方程形式为
在这里插入图片描述

1.2.2 参数的最小二乘估计

在这里插入图片描述
使因变量的观察值yi与估计值yi之间的离差平均和达到最小来求得b0和b1^的方法吧,称为最小二乘法。
在这里插入图片描述
在这里插入图片描述

1.2.3 回归直线的拟合优度

判定系数是对估计得回归方程拟合优度的度量。
因变量y的取值不同的,y取值的这种波动称为变差。变差的产生来自于两个方面:一是由于i自变量x的取值不太造成的;二是除x以外的其他因素的影响。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
回归平方和占总平方和的比例,称为判定系数,记为R2。计算公式为:
在这里插入图片描述
在这里插入图片描述
估计标准误差
对于一个变量的诸多观测值,我们可以用标准差来测度各观测值在其平均数周围的分散程度。与之类似的一个量可以用来度量个实际观测点在直线周围的散步状况,这个就是估计标准误差,也称为估计量的标准差或标准误差。

均方误差(MSE)的平方根,称为估计量的标准差或标准误差,用sy来表示。
估计标准误差是对各观察点在直线周围分散成度的一个度量值,它是对误差项e的标准差o的估计。其计算公式为:
在这里插入图片描述

1.2.4 显著性检验

回归分析中的显著性检验主要包括两方面的内容:一是线性关系的检验;二是回归系数的检验。
1.线性关系的检验
为检验两个变量之间的线性关系是否显著,我们需要构造用于检验的一个统计量。
在这里插入图片描述
回归系数的检验

回归系数的显著性检验就是检验回归系数b1是否等于0,为检验原假设H0:b1=0是否成立,需要构造用于检验的统计量。为此,需要研究回归系数b1的抽样分布。
在这里插入图片描述
在这里插入图片描述
在进行显著性检验时,有以下两点需要注意:
(1)在对回归系数进行检验时,如果拒绝了H0:b1=0,仅仅是表明在x的样本观察值范围内,x和y之间存在线性关系,而且一个线性关系只是解释了y的变差中的显著部分。也就是说,拒绝H0还不足以让我们得出x和y之间存在线性关系的结论,只是在样本数据 的范围内拒绝了H0.
(2)在一元线性回归中,自变量只有一个,上面介绍的F检验和t检验师等价的,也就是说,如果H0:b1=0被t检验拒绝,它将被F检验拒绝。但在多元回归分析中,这两种检验的意义是不同的,F检验只是用来检验总体回归关系的显著性,而t检验则是检验各个回归系数的显著性。
在这里插入图片描述

1.3 利用回归方程进行估计和预测

回归分析的目的是根据所建立的估计得回归方程进行预测或控制,其方法包括点估计和区间估计。

1.3.1 点估计

利用估计得回归方程,对于x的一个特定值x0,求出y的平均值的一个估计值E(y0),称为平均值得点估计。
利用估计得回归方程,对于x的一个特定值x0,求出y的一个个别值的估计值y^0,称为个别值的点估计。

1.3.2 区间估计

利用估计的回归方程,对于x的一个特定值x0,求出y的一个估计值的区间就是区间估计。它有两种类别:一是置信区间估计,它是对x的一个给定值x0,求出y的平均值得估计区间,这一区间估计称为置信区间;二是预测区间估计,它是对x的一个给定值x0,求出y的一个个别值得估计区间,这一区间称为预测区间。
1 y的平均值的置信区间估计
对于x的一个特定值x0,求出y的一个估计值的区间就是置信区间估计。
在这里插入图片描述
在这里插入图片描述
y的个别值的预测估计区间
预测区间估计,它是对x的一个给定值x0,求出y的一个个别值得估计区间,这一区间称为预测区间。
在这里插入图片描述

1.4 残差分析

确定有关e的假定是否成立的方法之一就是进行残差分析。

1.4.1 用残差证实模型的假定

残差与残差图
因变量的观测值yi与根据估计得回归方程求出的预测值y^i之差,称为残差,用e表示。

标准化残差
残差除以它的标准差后得到的数值,称为标准化残差,用Ze表示。
第i个观察值得标准化残差可以表示为:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

1.4.2 用残差检测异常值和有影响的观测值

1 检验异常值
在一元回归中,通过散点图可以观察出异常值。在散点图中,如果某一个点与其他点所呈现的趋势不相符合,这个点可能就是异常点。
2 检测有影响的观测值
如果某一个或某一些观测值对回归的结果有强烈的影响,那么该观测值或这些观测值就是有影响的观测值。
在这里插入图片描述
在这里插入图片描述

多元线性回归

2.1 多元线性回归模型

在实际问题中,影响因变量的因素往往有多个,这种一个因变量同多个 自变量的回归问题就是多元回归,当因变量同各自自变量之间为线性关系时,称为多元线性回归。

2.1.1 多元线性回归模型与回归方程

描述因变量y如何依赖于自变量x1,x2,…,xp和误差项e的方程称为多元线性回归模型。
多元线性回归模型一般形式可写为:
在这里插入图片描述
描述y的期望值如何依赖于自变量x1,x2,…,xp的方程称为多元线性回归方程。根据回归模型的假定,得到回归方程如下:
在这里插入图片描述
2.1.2 估计得多元线性回归方程
利用最小二乘法,根据样本数据得到的多元线性回归方程的估计,称为估计的多元线性回归方程。估计得回归方程一般形式为
在这里插入图片描述
2.1.3 参数的最小二乘估计
回归方程中的b0,b1,b2,…,bp仍然是根据最小二乘法求得。也就是使残差平方和
在这里插入图片描述
在这里插入图片描述

2.2 回归方程的拟合优度

2.2.1 多重判定系数
在多元线性回归中,回归平方和占总平方和的比例,称为多重判定系数。
在这里插入图片描述
用模型中的自变量的个数和样本容量进行调整的多重判定系数,称为修正的多重判定系数,记为R^2。
修正的多重判定系数的计算公式为:
在这里插入图片描述
2.2.2 估计标准误差
同一元线性回归一样,多元线性回归中的估计标准误差也是对误差项e的方法o2的一个估计值,它在衡量多元回归方程的拟合优度也起着重要作用。计算公式为:
在这里插入图片描述

2.3 显著性检验

线性关系检验主要是检验因变量同多个自变量的线性关系是否显著,在p个自变量中,只要有一个自变量同因变量的线性关系显著,F检验就能通过,但不意味着每个自变量都与因变量显著。
回归系数检验则是对每个回归系数分别进行单独的检验,他主要用于检验每个自变量对因变量的影响是否都显著。
2.3.1 线性关系检验
线性关系检验是检验因变量y与p个自变量的关系是否显著,也称为总体显著性检验,检验的具体步骤为:

在这里插入图片描述
2.3.2 回归系数的检验个推断
在回归方程通过线性关系的检验后,就可以对各个回归系数b^i有选择地进行一次或多次检验。但究竟要对哪几个回归系数进行检验,通常需要在建立模型之前作出决定,此外,还应对回归系数检验的个数进行限制,以免犯更多的第I错误。
在这里插入图片描述

2.4 多重共线性

当回归模型中使用两个或以上的自变量时,这些自变量往往会提供多余的信息。也就是说,这些自变量之间彼此相关。

2.4.1 多重共线性及其所产生的问题
当回归模型中两个或以上的自变量彼此相关时,我们称回归模型中存在多重共线性。

2.4.2 多重共线性的判别
检验多重共线性的方法有多种,其中最简单的一种办法是计算模型中各对自变量之间的相关系数,并对各相关系数进行显著性检验。如果有一个或多个相关系数是显著的吗,就表示模型中所使用的自变量之间相关,因而存在着多重共线性问题。具体来说,如果出现下列情况,暗示存在多重共线性:
(1)模型中各对自变量之间显著相关。
(2)当模型的线性相关检验(F检验)H0:b1=b2=…=bp=0显著时,几乎所有回归系数bi的t检验却不显著。
(3)回归系数的正负号与预期的相反。

2.4.3 多重共线性问题的处理
(1)将一个或多个相关的自变量从模型中删除,使保留的自变量尽可能不相关。
(2)如果要在模型中保留所有的自变量,那就应该:
1)避免根据t统计量对单个参数b进行检验
2)对因变量y值得推断(估计或预测)限定在自变量样本值的范围内。

2.5 利用回归方程进行估计和预测

和一元线性回归类似

2.6 虚拟自变量的回归

由于一些变量的取值本身是用文字描述的,要把他们放进回归模型中,必须先将其文字型数值用数字代码来表示,这种代码化的定性自变量称为虚拟变量。
用于回归模型中的定性自变量,称为虚拟自变量。当回归模型中使用虚拟自变量时,称为 将虚拟自变量的回归。

2.7 非线性回归

对于两个变量x和y,若因变量y随自变量x取值的不同而变化,并呈现出某种曲线形态时,我们称二者之间为非线性关系。在只涉及一个自变量的情况下,称两个变量之间的回归为一元非线性回归。非线性回归大多数可以化为线性回归问题来求解。

2.7.1 双曲线
若变量x随y而增加,最初增加很快,以后逐渐减慢并趋于稳定,则可以选用双曲线函数。其方程为:
在这里插入图片描述
在这里插入图片描述

2.7.2 幂函数曲线
若变量x与y都接近等比变化,即其环比分别接近于一个常数,可拟合幂函数曲线。其方程为:
在这里插入图片描述
在这里插入图片描述
2.7.3 对数曲线
其方程为:
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值