如何理解多维数据的线性回归问题?
背景就是我们有一个训练集:( x1, y1 ), (x2,y2 )........ ( xN,yN ),通过这个数据集估计参数向量β。每个 xi是第i个数据(第i个样本)的特征度量向量,但是每个 yi就是一个一维数据;举例来说,有100个人,每个人测量了身高、臂展、腰围等参数,用这些参数预测体重。每个人就可以用一个点(身高、臂展、腰围,体重)来表示,现在有100个点,建立预测模型。
其向量形式是
关于最小二乘法,我们使得残差平方和达到最小来使得线性回归模型拥有最好的拟合效果。
矩阵形式为
有
有
是的我们已经得到了
设样本中得N个观测值 互不相关,方差为 ,则
注意这里的 就是一个一维常数,不是常数向量
如何检验特定系数
检验统计量
首先
需要注意的是
3.3 从简单的一元回归到多元回归
(1)一元无截距的线性回归模型
Y =Xβ+ε
三大假设:(1)误差项ε是一个期望值为零的随机变量,即E(ε)=0
(2)对于所有的x值,ε的方差盯σ2都相同。
(3)误差项ε是一个服从正态分布的随机变量,且相互独立,ε~N(0, )
样本数据
参数β的最小二乘估计的离差形式
(2) 一元有截距的线性回归模型
样本数据
模型:
如何利用最小二乘法做一元回归呢?
步骤1:在1上对 回归,这个“1”是向量 ,产生系数
步骤2:在残差z上对y回归,产生系数
注:“在a上对b回归”是指a上无截距的b的简单一元回归,产生系数 ,残差向量b- 。我们称b是a的调整,或者b是关于a的正交化。
(3)多元线性回归问题
在多元线性回归问题中,自变量有多个,
当
但样本数据X基本上不可能是正交的,这时必须先把数据正交化,这样就可以借鉴上面的思想。
(3)多元线性回归模型的最小二乘法
当输入矩阵X的各列向量彼此正交时,即任意j≠k,有
步骤1:初始化,令
步骤2:对于j=1,2,......p-1 ,在 ,
L=0,1,2....j-1 ,并产生残差向量
步骤3:在残差
举例来说,
第一步:令
第二步:j=1时,在
第三步:j=2时,在
产生残差向量
第四步:j=3时,........................
第五步:............................
依此类推最后一步:在残差向量
每个
3.4多元线性回归模型的基本假定:
假设1:回归模型是正确的假定
假设2:解释变量 ,
假设3:各解释变量 在所抽取得样本中具有变异性,而且随着样本容量的增加,解释变量的样本方差趋近于一个非零的有限常数
假设4:随机误差项具有条件零均值、同方差、不序列相关性
假设5:解释变量和随机误差项不相关
假设6:随机误差项满足正态分布
3.5多元线性回归模型的统计检验:
不论是用哪种回归方法,在利用样本求出样本回归函数之后都要对回归函数进行统计检验,包括拟合优度检验、方程总体线性的显著性检验、变量的显著性检验、参数的置信区间估计等。
3.5.1 拟合优度检验
总离差平方和
回归平方和ESS反映了总离差平方和中可以由拟合出的样本回归模型解释的部分,ESS越大RSS就越小,拟合效果越好。
3.5.2方程总体线性的显著性检验---F检验
该检验的目的是验证我们是样本上得到的解释变量和被解释变量之间的线性关系在总体上是否显著成立,具体来说就是方程显著性的F检验是检验总体模型
是否显著不为0
检验统计量
当用样本数据算出F值后,若
若
3.5.3 变量的显著性检验(t检验)
我们知道方程的总体线性关系是显著的不代表每个解释变量对被解释变量的影响搜是显著的。
如何检验特定系数
检验统计量 在前面已经说过了,自己可以看一下
当原假设为
谢谢!