r语言中残差与回归值的残差图_应用统计学与R语言实现学习笔记(九)——线性回归...

本文介绍了线性回归分析的基础知识,包括变量关系的分类、相关系数的计算与特点,以及回归分析与相关分析的区别。重点讲解了简单线性回归模型,包括模型的表示形式、基本假定、回归方程的建立与估计、残差分析及其在R语言中的实现。此外,讨论了残差图在检验线性关系和异常值识别中的作用,强调了正确理解和应用线性回归的重要性。
摘要由CSDN通过智能技术生成

Chapter 9 Linear Regression

本篇是第九章,内容是回归分析(主要以线性回归为主)。回归分析是数理统计、数理分析中最基础(也可以说是最重要)的一个分析,所以这一章内容相对来说也较多。

1 变量间的关系

确定型关系vs不确定型关系

函数关系——一一对应的确定型关系设有两个变量x和y,变量y随变量x一起变化, 并完全依赖于x,当变量x取某个数值时,y依确定的关系取相应的值,则称y是x的函数,记为y=f(x),其中x称为自变量,y称为因变量各观测点落在一条线上。

相关关系(correlation)——变量间关系不能用函数关系精确表达。一个变量的取值不能由另一个变量唯一确定。当变量x取某个值时, 变量y的取值可能有几个。各观测点分布在直线周围。

相关关系包括了线性相关(正相关、负相关)、非线性相关、完全相关(正相关、负相关)、不相关。

除了如上的图,可以看下面的链接——关于相同统计量不同数据的一篇外文。

相关系数(correlation coefficient)

对变量之间关系密切程度的度量(只关心密切程度,无关因果关系);

对两个变量之间线性相关程度的度量称为简单相关系数;

若相关系数是根据总体全部数据计算的,称为总体相关系数,记为ρ;

若是根据样本数据计算的,则称为样本相关系数,记为 r。

总体相关系数的计算公式:

相关系数特点

无量纲(Unitfree);

ρ的取值范围是 [-1,1];

|ρ|=1,为完全相关(ρ=1为完全正相关;ρ=-1为完全负相关);

ρ=0,不存在线性相关关系;

-1≤ρ<0,为负相关,0

|ρ|越趋于1表示线性关系越密切;|ρ|越趋于0表示线性关系越不密切;

若X与Y相互独立,则ρ=0,但ρ=0,X与Y不一定相互独立;

若ρ= 0,且X与Y服从正态分布,则X与Y相互独立。

样本相关系数计算公式:

样本相关系数特点

无量纲(Unitfree);

r的取值范围是 [-1,1];

|r|=1,为完全相关(r=1为完全正相关;r=-1为完全负相关);

r=0,不存在线性相关关系;

-1≤r<0为负相关,0

|r|越趋于1表示线性关系越密切;|r|越趋于0表示线性关系越不密切;

对变量之间关系密切程度的度量,只关心密切程度,无关因果关系。

比如撑伞的人数和降雨量的相关系数非常高。但是我们不能说因为撑伞的人多了,所以降雨量大。

r的抽样分布

r的抽样分布随总体相关系数和样本容量的大小而变化。当样本数据来自服从正态分布的总体时,随着n的增大,r的抽样分布趋于正态分布,尤其是在总体相关系数ρ很小或接近0时,趋于正态分布的趋势非常明显。而当ρ远离0时,除非n非常大,否则r的抽样分布呈现一定的偏态。当ρ为较大的正值时, r呈现左偏分布;当ρ为较小的负值时, r 呈现右偏分布。只有当ρ接近于0,而样本容量n很大时,才能认为r是接近于正态分布的随机变量。

相关系数的显著性检验步骤

检验两个变量之间是否存在线性相关关系,等价于对回归系数β1的检验。采用R. A. Fisher提出的t检验。

检验的步骤为:

2 回归分析和简单线性回归分析

2.1 回归分析

什么是回归分析(Regression)?

从一组样本数据出发,确定变量之间的数学关系式。对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著, 哪些不显著。利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值, 并给出这种预测或控制的精确程度。

回归分析与相关分析的区别

相关分析中,变量x变量y处于平等的地位;回归分析中,变量y称为因变量,处在被解释的地位,x称为自变量,用于预测因变量的变化;

相关分析中所涉及的变量x和y都是随机变量;回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量;

相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制。

回归模型(regression model)——回答“变量之间是什么样的关系?”方程中运用1个数值型因变量(响应变量)作为被预测的变量;1个或多个数值型或分类型自变量 (解释变量)作为用于预测的变量。主要用于预测和估计。回归模型的类型包括一元回归模型(线性和非线性)和多元回归模型(线性和非线性)。

接下来先从简单线性回归分析讲起。

2.2 简单线性回归分析

简单线性回归(Simple Linear Regression)——涉及一个自变量的回归,因变量y与自变量x之间为线性关系。被预测或被解释的变量称为因变量(dependent variable),用y表示ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值