统计学第6天之一元线性回归

1、变量间关系的度量

函数关系

(1)是一 一对应的确定关系;

(2)设有两个变量x和y,变量y随x一起变化,并完全依赖于x,当x取某个数值时,y根据确定的关系取相应的值,称y是x的函数,记为y=f(x),其中x称为自变量,y称为因变量;

(3)各观测点落在一条线上。

(4)函数关系的例子

  • 某种商品的销售额y和销售量x之间的关系可以表示为y=px(p为单价);
  • 圆的面积S与半径之间的关系可以表示为S=\pi R^2;
  • 企业的原材料消耗额y与产量x_1、单位产量消耗x_2、原材料价格x_3之间的关系可表示为:y=x_1x_2x_3

相关关系

(1)变量的关系不能用函数关系精确表达;

(2)一个变量的取值不能由另一个变量唯一确定;

(3)当变量x取某个值时,变量y的取值可能有几个;

(4)各观察点分布在直线周围。

(5)线性相关的例子:

  • 子女身高y与父母身高x之间的关系;
  • 收入水平y与受教育程度x之间的关系;
  • 粮食亩产量y与施肥量x_1,降雨量x_2,温度x_3之间的关系;
  • 商品消费量y与居民收入x之间的关系;
  • 商品的销售额y与广告费支出x之间的关系。

例1:一家大型商业银行在多个地区有分行,其业务主要是进行基础设施建设、国家重点项目建设、固定投资等项目的贷款。近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例提高,这给银行业务的发展带来较大的压力。为弄清不良贷款形成的原因,管理者希望利用银行业务的相关数据做些定量分析,以便找出控制不良贷款的方法。如下就是该银行所属的25家分行的相关业务数据。

散点图可以看出,不良贷款与贷款余额、累计应收贷款、贷款项目个数、固定资产投资额之间都具有一定的相关关系。
从各散点的分布情况看,不良贷款与贷款余额的相关关系比较密切,与固定资产投资额之间的关 系最不密切。

相关系数

(1)对变量之间关系密切程度的度量;

(2)对两个变量之间线性关系相关程度的度量称为简单相关系数;

(3)若相关系数是根据总体全部数据计算的,称为总体相关系数,记作\rho

(4)若是根据样本数据计算的,则称为样本相关系数,记为r

(5)取值以及其意义

r 的取值范围[-1,1]        -1\leq r< 0,为负相关

|r| = 1,为完全相关     0 \leq r < 1,为正相关

在上述案例中,不良贷款、贷款余额、累计应收贷款,贷款项目个数,固定资产投资额的相关系数为:

解:用excel【数据分析】中的【相关系数】工具计算的相关矩阵如下:

可以看出不良贷款与其他几个变量的关系中,与贷款余额的相关系数最大,而与固定资产投资额的相关系数最小。

相关系数的显著性水平检验

能否根据样本相关系数说明总体的相关程度呢?需要考察样本的可靠性,需要进行显著性检验。

r的抽样分布

1、r的抽样分布随总体相关系数和样本容量的大小而变化

当样本数据来自正态总体时,随着n的增大,r的抽样分布趋于正态分布,尤其是在总体相关系数ρ很小或接近0时,区域正态分布的趋势非常明显。当ρ远离0时,除非n非常大,否则r的抽样分布呈现一定的偏态。

2、当为较大的正值时,r呈现左偏分布;当为较小的负值,r呈现右偏分布。只有当接近于0,而样本容量很大时,才能认为r是接近于正态分布的随机变量。

 检验的步骤

1、检验两个变量之间是否存在线性相关关系;

2、采用费尔希提出的t检验,可以用于大样本,也可以用于小样本;

3、检验的步骤为

第一步:提出假设

H _0:\rho=0,H_1:\rho \neq0

第二步:计算p值

t = |r| \sqrt{\frac{n-2}{1-r^2}} \sim t(n-2)

第三步:确定显著性水平α,并做出决策

|t|>t_{\alpha/2},表明总体的两个变量之间存在显著的线性关系

| t |<t_{\alpha/2},不能拒绝原假设H0

对之前案例中的不良贷款与贷款余额之间的相关系数进行显著性检验(\alpha=0.05

解:第一步:提出假设

H_0:\rho=0,H_1:\rho \neq 0

第二步:计算检验的统计量

t = |0.8436| \sqrt{\frac{25-2}{1-0.8436^2}} = 7.5344

第三步:做出决策

根据显著性水平\alpha = 0.05,查 t 分布表得t_{\alpha/2}(n-2)=2.069

由于|t| = 7.5344>t_{\alpha/2}(n-2)=2.069,拒绝H0,不良贷款与贷款余额之间存在显著性的正线性相关关系。

2、一元线性回归

回归分析,对于因变量Y,根据自变量X结合统计学模型(数学公式),预测出因变量Y。

(1)回归分析和相关性分析的区别

1、回归分析中,变量x和变量y处于平等的地位;回归分析中,y称为因变量,处于被解释的位置,x是自变量,用于预测因变量的变化。

2、相关分析中所涉及的变量x和y都是随机变量;回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机变量的确定变量。

3、相关性分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示自变量x对因变量y的影响大小,还可以由回归方程进行预测。

 (2)一元线性回归模型

1、描述因变量y依赖自变量x和误差项的方程称为回归模型。

2、一元线性回归模型可以表示为:

y = \beta_0+\beta_1 x+ \epsilon

其中y是x的线性部分加上误差项,线性部分反映x的变化而引起y的变化,误差项反映的是除了线性关系之外的因素对y的影响,不能由x和y之间的线性关系揭示的变异性,\beta_0,\beta_1称为模型参数。

 (3)基本假定

误差项\epsilon是一个期望值为0的随机变量,对于一个给定的x,y的期望值为E(x)=\beta_1x+\beta_0;

对于所有的x值,\epsilon的方差\sigma^2都相同;

误差项\epsilon是一个服从正态分布的随机变量,且相互独立。即\epsilon \sim N(0,\sigma^2);

独立性意味着对一个特定的x值,它所对应的\epsilon与其他x对应的\epsilon不相关;

对于一个特定的X值,它所对应的Y值与其他X所对应的Y值也不相关。

 

 从上图可以看出,y的值随着x的不同而变化,但不论x怎么变化,\epsilon和y的概率分布是正态分布,并且具有相同的方差。

 (4)回归方程

1、描述y的平均值或期望值如何依赖于x的方程称为回归方程;

2、一元线性回归方程的形式如下:

y = \beta_0+\beta_1 x

方程的图示是一条直线,也称为直线回归方程

\beta_0是回归直线在y轴上的截距,是当x=0时y的期望值

\beta_1是直线的斜率,称为回归系数,表示当x每变动一个单位时,y的平均变动值。

参数的最小二乘估计

作用是估计回归方程中\beta_0,\beta_1的值。

1、使因变量的观察值与估计值之间的离差平方和达到最小来求\hat{\beta_0},\hat{\beta_1}的方法。即

\sum_{i=1}^{n}(y_i-\hat{y})^2=\sum_{i=1}^{n}(\hat{y}-\hat{\beta_0}-\hat{\beta_1}x_i)^2=最小

2、用最小二乘法拟合的直线来代表x和y之间的关系与实际数据的误差比其他任何直线都小。

根据最小二乘法的要求,可以求解\hat{\beta_0},\ \hat{\beta_1}的公式如下:

\hat{\beta_1} = \frac{\sum_{i=1}^{n}(X_i-\bar{X})(Y_i-\bar{Y})}{\sum_{i=1}^{n}(X_i-\bar{X})^2}

上述案例中不良贷款与各项贷款余额之间的回归方程

3、利用回归方程进行估计和预测

变差

1、因变量y的取值是不同的,y取值的这种波动性称为变差。变差来源于两个方面:

        由于自变量x的取值不同造成的

        除了x以为的其他因素(x对y的非线性影响,测量误差等)的影响。

2、对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差y-\bar y表示

误差平方和的分解

1、总平方和(SST):反映因变量n个值观察值与其均值的总误差;

2、回归平方和(SSR):反映自变量X的变化对因变量Y取值变化的影响,即由于x和y之间的线性关系引起的取值变化,也成为可解释的平方和;

3、残差平方和:反映除X以为的其他因素对Y取值的影响,也成为不可解释的平方和或剩余平方和。

判定系数R方

1、回归平方和占总方差平方和的比例

2、反映回归直线的拟合程度;

3、取值范围在[0,1]之间;

4、R^2-->1说明回归方程拟合的越好;R_2-->0说明回归方程拟合的越差;

5、判定系数等于相关系数的平方,即R^2=r^2

计算上述案例中不良贷款对单款余额回归的判定系数,并解释其意义。

判定系数的实际意义是:在不良贷款取值的变差中,有71.16%可以由不良贷款与贷款余额之间的线性关系来解释,或者说,在不良贷款的取值的变动中,有71.16%是由贷款余额所决定的。也就是说,不良贷款取值的差异2/3以上是由贷款余额决定的。可见不良贷款与贷款余额之间有较强的线性相关性。

估计标准误差

1、实际观察值与回归估计值离差平方和的均方根;

2、反映实际观察值在回归直线周围的分散状况;

3、对误差项\epsilon的标准差\sigma的估计,是在排除x对y的线性影响后,y随机波动大小的一个估计量;

4、反映用估计的回归方程预测y时预测误差的大小;

5、计算公式为

根据上述案例的计算结果,计算不良贷款对余额回归的估计标准误差,并解释其意义

 实际上,Excel计算表中直接给出了该值,即标准误差为1.979948,根据贷款余额来估计不良贷款时,平均的估计误差为1.979948亿元。

显著性检验

回归分析的主要目的是根据所建立的估计方程,用自变量x来预测因变量y的取值。

建立估计方程后,不能立马使用其去预测,因为该估计方程是通过样本数据得出的方程,是否置信需要通过验证来证实。

回归分析中的显著性检验主要包含两个方面内容:一是线性关系的检验;二是回归系数的检验。

概念

1、检验自变量与因变量之间的线性关系是否显著;

2、将回归均方(MSR)同残差均方(MSE)加以比较,用用F检验来分析二者之间的差别是否显著:

  • 回归均方MSR:回归均方和SSR除以相应的自由度(SSR的自由度是自变量的个数k,一元线性回归中自由度为1)
  • 残差均方MSE:残差平方和SSE除以相应的自由度(SSE的自由度n-k-1,一元线性回归中自由度为n-2) 
线性关系的检验

1.提出假设:H_0:\beta_1=0两个变量之间的线性关系不显著; 

2.计算检验统计量 F=\frac{SSR/1}{SSE/(n-2)} = \frac{MSR}{MSE} \sim F(1,n-2)

3.作出决策:确定显著性水平\alpha,并根据分子自由度1和分母自由度n-2找出临界值F_{\alpha},若F>F_{\alpha}拒绝H_0;若F<F_{\alpha}不拒绝H_0

回归系数检验
概念

1.检验x和y之间是否具有线性关系,或者说,检验自变量x对因变量y的影响是否显著;

2.理论基础是回归系数\hat{\beta_1}的抽样分布;

3.在一元线性回归中,等价于线性关系的显著性检验。

 样本统计量\hat{\beta_1}的分布

1.\hat{\beta_1}是分局最小二乘法求出的样本统计量,它有自己的分布;

2.\hat{\beta_1}分布具有如下性质:

  • 分布形式:正态分布
  • 数学期望:E(\hat{\beta_1}) = \beta_1

检验步骤

1、提出假设

H_0:\beta_1=0没有线性关系

H_1;\beta_1 \neq 0 有线性关系

2、计算检验的统计量

3、确定显著性水平\alpha,进行决策 

 在实际应用中,可以直接利用Excel输出的参数估计表进行检验。表中给出了用于检验的P值(P-value)。检验时可以直接将P- value与给定的显著性水平\alpha。进行比较。在本例中,P-value=0.000<0.05,所以拒绝H_0

利用回归方程进行估计和预测

概念

1.根据自变量X的取值估计或预测因变量Y的取值;

2.估计和预测的类型;

  • 点估计
    •  Y平均值的点估计
    •  Y个别值的点估计
  • 区间估计
    • Y平均值的区间估计
    • Y的个别值的区间估计
 点估计

1.对于自变量X的一个给定值x_0,根据回归方程得到因变量y的一个估计值y_0;

2.点估计值:平均值和个别值的点估计;

3.在点估计条件下,平均值的点估计和个别值的点估计是一样的,在区间估计中则不同。

Y的平均值的点估计

 利用估计的回归方程,对于自变量x的一个给定值x_0,求出因变量y的平均值的一个估计值E(y_0),就是平均值的点估计。

在前面的例子中,假如我们要估计贷款余额为100亿时,所有分行不良贷款的平均值,就是平均值的点估计。根据估计的回归方程得

 区间估计
概念

1、利用估计的回归方程,对于自变量x的一个给定x_0,求出因变量y的一个个别值的估计区间,这一区间成为预测区间。

2、y_01-\alpha置信水平下的预测区间为

影响区间宽度的因素 

1.置信水平(1-\alpha):区间宽度随置信水平的增大而增大;

2.数据的离散程度S:区间宽度随离散程度的增大而增大;

3.样本容量:区间宽度样本容量的增大而减小;

4.用于预测的x_p\bar x的差异程度:差异程度越大区间宽度越大

4、残差分析

残差与残差图

在回归模型y = \beta_0+\beta_1 x+ \epsilon中,假定\epsilon是期望为0,方差相等且服从正态分布的一个随机变量。如果关于\epsilon的假定不成立,那么所做的检验以及估计和预测也许就站不住脚,确定\epsilon的假定是否成立的方法之一就是进行残差分析。

残差

变量的观测值与根据估计的回归方程求出的预测值之差,用e表示e_i=y_i-\hat{y_i},反映了用估计的回归方程去预测而引起的误差。

残差图

表示残差的图形,关于x的残差图、关于y的残差图、标准化残差图。

 

若对所有的x值,残差的方差都相同,而且假定描述变量X和Y之间关系的回归模型是合理的,那么残差图中所有点都应该落在一条水平带中间,如图(a)所示。

对于所有的值,残差是不同的,例如对于较大的X值,相应的残差也较大,如图(b)所示,这就意味着违背了残差方差相等的假设。

如果残差图如c那样,则表明所选择的回归模型不合理,这时应该考虑曲线回归,或多元回归模型。

通过上图可以看出各残差几本位于水平带中间,表明关于不良贷款与贷款余额回归的线性假定以及对误差项残差的假定时成立的。

本项目是一个基于SSM(Spring+SpringMVC+MyBatis)框架和Vue.js前端技术的大学生第二课堂系统,旨在为大学生提供一个便捷、高效的学习和实践平台。项目包含了完整的数据库设计、后端Java代码实现以及前端Vue.js页面展示,适合计算机相关专业的毕设学生和需要进行项目实战练习的Java学习者。 在功能方面,系统主要实现了以下几个模块:用户管理、课程管理、活动管理、成绩管理和通知公告。用户管理模块支持学生和教师的注册、登录及权限管理;课程管理模块允许教师上传课程资料、设置课程时间,并由学生进行选课;活动管理模块提供了活动发布、报名和签到功能,鼓励学生参与课外实践活动;成绩管理模块则用于记录和查询学生的课程成绩和活动参与情况;通知公告模块则实时发布学校或班级的最新通知和公告。 技术实现上,后端采用SSM框架进行开发,Spring负责业务逻辑层,SpringMVC处理Web请求,MyBatis进行数据库操作,确保了系统的稳定性和扩展性。前端则使用Vue.js框架,结合Axios进行数据请求,实现了前后端分离,提升了用户体验和开发效率。 该项目不仅提供了完整的源代码和相关文档,还包括了详细的数据库设计文档和项目部署指南,为学习和实践提供了便利。对于基础较好的学习者,可以根据自己的需求在此基础上进行功能扩展和优化,进一步提升自己的技术水平和项目实战能力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值