Chapter 9 Linear Regression
本篇是第九章,内容是回归分析(主要以线性回归为主)。回归分析是数理统计、数理分析中最基础(也可以说是最重要)的一个分析,所以这一章内容相对来说也较多。
1 变量间的关系
确定型关系vs不确定型关系
函数关系——一一对应的确定型关系设有两个变量x和y,变量y随变量x一起变化, 并完全依赖于x,当变量x取某个数值时,y依确定的关系取相应的值,则称y是x的函数,记为y=f(x),其中x称为自变量,y称为因变量各观测点落在一条线上。
相关关系(correlation)——变量间关系不能用函数关系精确表达。一个变量的取值不能由另一个变量唯一确定。当变量x取某个值时, 变量y的取值可能有几个。各观测点分布在直线周围。
相关关系包括了线性相关(正相关、负相关)、非线性相关、完全相关(正相关、负相关)、不相关。
除了如上的图,可以看下面的链接——关于相同统计量不同数据的一篇外文。
相关系数(correlation coefficient)
对变量之间关系密切程度的度量(只关心密切程度,无关因果关系);
对两个变量之间线性相关程度的度量称为简单相关系数;
若相关系数是根据总体全部数据计算的,称为总体相关系数,记为ρ;
若是根据样本数据计算的,则称为样本相关系数,记为 r。
总体相关系数的计算公式:
相关系数特点
无量纲(Unitfree);
ρ的取值范围是 [-1,1];
|ρ|=1,为完全相关(ρ=1为完全正相关;ρ=-1为完全负相关);
ρ=0,不存在线性相关关系;
-1≤ρ<0,为负相关,0
|ρ|越趋于1表示线性关系越密切;|ρ|越趋于0表示线性关系越不密切;
若X与Y相互独立,则ρ=0,但ρ=0,X与Y不一定相互独立;
若ρ= 0,且X与Y服从正态分布,则X与Y相互独立。
样本相关系数计算公式:
样本相关系数特点
无量纲(Unitfree);
r的取值范围是 [-1,1];
|r|=1,为完全相关(r=1为完全正相关;r=-1为完全负相关);
r=0,不存在线性相关关系;
-1≤r<0为负相关,0
|r|越趋于1表示线性关系越密切;|r|越趋于0表示线性关系越不密切;
对变量之间关系密切程度的度量,只关心密切程度,无关因果关系。
比如撑伞的人数和降雨量的相关系数非常高。但是我们不能说因为撑伞的人多了,所以降雨量大。
r的抽样分布
r的抽样分布随总体相关系数和样本容量的大小而变化。当样本数据来自服从正态分布的总体时,随着n的增大,r的抽样分布趋于正态分布,尤其是在总体相关系数ρ很小或接近0时,趋于正态分布的趋势非常明显。而当ρ远离0时,除非n非常大,否则r的抽样分布呈现一定的偏态。当ρ为较大的正值时, r呈现左偏分布;当ρ为较小的负值时, r 呈现右偏分布。只有当ρ接近于0,而样本容量n很大时,才能认为r是接近于正态分布的随机变量。
相关系数的显著性检验步骤
检验两个变量之间是否存在线性相关关系,等价于对回归系数β1的检验。采用R. A. Fisher提出的t检验。
检验的步骤为:
2 回归分析和简单线性回归分析
2.1 回归分析
什么是回归分析(Regression)?
从一组样本数据出发,确定变量之间的数学关系式。对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著, 哪些不显著。利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值, 并给出这种预测或控制的精确程度。
回归分析与相关分析的区别
相关分析中,变量x变量y处于平等的地位;回归分析中,变量y称为因变量,处在被解释的地位,x称为自变量,用于预测因变量的变化;
相关分析中所涉及的变量x和y都是随机变量;回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量;
相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制。
回归模型(regression model)——回答“变量之间是什么样的关系?”方程中运用1个数值型因变量(响应变量)作为被预测的变量;1个或多个数值型或分类型自变量 (解释变量)作为用于预测的变量。主要用于预测和估计。回归模型的类型包括一元回归模型(线性和非线性)和多元回归模型(线性和非线性)。
接下来先从简单线性回归分析讲起。
2.2 简单线性回归分析
简单线性回归(Simple Linear Regression)——涉及一个自变量的回归,因变量y与自变量x之间为线性关系。被预测或被解释的变量称为因变量(dependent variable),用y表示ÿ