线性回归分析
§3.1 一元线性回归模型
一、回归分析
变量之间的关系,大体分为两类:一类是函数关系;另一类是统计相关关系,或称随机关系。具有相关关系的变量间虽然不具有确定的函数关系,但可以根据大量的统计数据,找出变量之间在数量变化上的统计规律,这种统计规律称为回归关系。用以近似地描述具有相关关系的变量间的函数关系称为回归函数。有关回归关系的计算方法和理论称为回归分析技术。
回归分析的主要内容是:
根据样本观察值对模型参数进行估计,求得回归方程;
对回归方程、参数估计值进行显著性检验;
利用回归方程进行预测与控制。
二、总体回归方程
1、例子
假设一个地区的人口总体由60户组成。我们要研究每月家庭消费支出Y与每月可支配家庭收入X的关系。也就是说知道了家庭的每月收入,要预测每月消费支出的(总体)平均水平。为此,将这60户家庭划分为组内收入差不多的10组,以分析每一收入组的家庭消费支出。表2.1给出了假定的数据.
表1.1 X,每月家庭收入(元)
X
Y
800
1000
1200
1400
1600
1800
2000
2200
2400
2600每月家庭消费支出550
600
650
700
750
-
-650
700
740
800
850
880
-790
840
900
940
980
-
-800
930
950
1030
1080
1130
11501020
1070
1100
1160
1180
1250
-1100
1150
1200
1300
1350
1400
-1200
1360
1400
1440
1450
-
-1350
1370
1400
1520
1570
1600
16201370
1450
1550
1650
1750
1890
-1500
1520
1750
1780
1800
1850
1910共计325046204450707067807500685010430966012110表2.1表明:对应于每月800元收入的5户家庭的每月消费支出为550到750元不等.类似地,给定X=2400元,6户家庭的每月支出在1370元和1890元之间.即表2.1的每个纵列给出对应于给定收入水平X的消费支出Y的分布.;也就是说,它给出了以X的给定值为条件的条件分布.
表2.1的数据代表一个总体.我们可计算出给定X的Y的条件概率.计算如下表2.2
表2.2 与表2.1的数据相对应的条件概率
X
800
1000
1200
1400
1600
1800
2000
2200
2400
2600条件
概率 1/5
1/5
1/5
1/5
1/5
-
-1/6
1/6
1/6
1/6
1/6
1/6 1/5
1/5
1/5
1/5
1/
1/7
1/7
1/7
1/7
1/7
1/7
1/71/6
1/6
1/6
1/6
1/6
1/6
- 1/6
1/6
1/6
1/6
1/6
1/6
-1/5
1/5
1/5
1/5
1/5
-
-1/7
1/7
1/7
1/7
1/7
1/7
1/71/6
1/6
1/6
1/6
1/6
1/6
-1/7
1/7
1/7
1/7
1/7
1/7
1/7Y的条件均值6507708901010113012501370149016101730如:
以上述条件均值作散点图,可以看出,Y的条件均值随X增加而增加,散点图表明这些条件均值落在一条有正斜率的直线上,这条直线叫做总体回归直线,具体描述如下.
2、 总体回归方程
描述两个变量X与Y之间的线性关系可用下列数学式子表示。
(2.1.1)
(2.1.1)式中一部分是由于X的变化引起Y线性变化的部分,即;另一部分是由其它一切随机因素引起的,记为。(2.1.1)式确切地表达了变量X与Y之间的密切程度,但密切的程度没有达到由X唯一确定Y的地步。
(2.1.1)式称为Y对X的一元线性回归理论模型,Y称为被解释变量(因变量),X称为解释变量(自变量),式中是未知参数,称为回归参数,表示随机因素的影响,是一随机变量。一般假定和,在此假定下有,
或,称为一元线性总体回归方程,它是解释变量取给定值时因变量的条件均值或条件期望值的轨迹.
三、样本回归方程
取一个容量为N的样本,代入(2.1.1)式有
, (2.1.2)
(2.1.2)称为一元线性回归模型.
基本假定:
零均值假定
(2.1.3)