看书标记【统计学习理论与方法】5、6、7

本文详细介绍了线性回归模型,包括一元线性回归中的随机干扰意义、最小二乘法原理及残差分析,以及多元线性回归的假定和模型检验。此外,还探讨了正态条件下的模型检验方法如拟合优度的R方和F检验,以及格兰杰因果关系检验。最后,提到了线性回归的进阶话题,如岭回归和LASSO等现代回归方法,用于处理多重共线性问题和防止过拟合。
摘要由CSDN通过智能技术生成

第五章 一元线性回归

5.2.2 随机干扰的意义
误差项u是一个随机变量,无法先验知晓,通常用概率分布来描述。随机误差可能反映了人类行为中的一部分内在随机性;随机误差可以代表测量误差;随机误差项也可能代表了模型中并未包括变量的影响。

5.3 回归模型的估计

5.3.1 普通最小二乘法原理OLS
残差 e i = y i − y ^ i = y i − w ^ 0 − w ^ 1 x i e_i=y_i-\hat{y}_i=y_i-\hat{w}_0-\hat{w}_1x_i ei=yiy^i=yiw^0w^1xiyi为总体回归方程,hatyi为样本回归函数,所以残差表示的就是yi的真实值与估计值之差,估计方法就是选择合适的估计参数使得残差尽量的小 min ⁡ ∑ e i 2 = ∑ ( y i − y ^ i ) 2 = ∑ ( y i − w ^ 0 − w ^ 1 x i ) 2 \min \sum e_i^2=\sum(y_i-\hat{y}_i)^2=\sum (y_i-\hat{w}_0-\hat{w}_1x_i)^2 minei2=(yiy^i)2=(yiw^0w^1xi)2,当回归方程是二次函数时,可对参数求偏导,由观测值解正规方程,也能得到参数的解。确定参数的方法叫OLS。有时为了简化计算,会用均值表示观测数据特征,所以常用的是离差表示的参数估计。
5.3.2 一元线性回归的应用

Data
Data.lm<-lm(y~x,data=data)
Summary(data.lm)
Plot(y~x,data)
Abline(data.lm)
##
Par(mfrow=c(2,2))
Plot(data.lm)
##得到的是用于检验回归模型是否合理、是否有异方差性以及是否存在异常值。附加线表示采用的是“局部加权回归散点修匀法LOWESS”汇总的。

5.3.3 经典模型的基本假定
零均值假定: y在其期望附近波动,表现为随机扰动项有相互抵消的趋势;
同方差假定: 不同变量取值对应的随机干扰项波动程度相同,也表现为y与u具有相同方差,y的可能取值波动程度相同;
相互独立性: 随机扰动项都是相互独立的,若u是i.i.d则y序列值之间也是互不相关的;
因变量与自变量之间满足线性关系:这是建立模型的基础。
(a)图是残差对拟合值的散点图;(b)图标准化残差QQ图,将残差分布与正态分布相比较;©图若y轴大于1.5,可以认为该样本95%都不在置信区间,中间的实线偏离水平直线较大意味着异方差性;(d)图表现的是标准化残差对杠杆值(帽子矩阵的元素,用于评估某点距离其他点的距离,同时表现了对回归的贡献度)的散点图,用于检查样本是否有异常值。

5.3.4 总体方差的无偏估计
总体的随机扰动项不可度量,所以用残差e估计随机扰动项u,可以证明 σ ^ 2 = ∑ e i 2 n − 2 \hat{\sigma}^2=\frac{\sum e_i^2}{n-2} σ^2=n2ei2得到无偏估计。

5.3.5 估计参数的概率分布
w ^ 0 ∼ N ( w 0 , σ ^ 2 ∑ x i 2 n ∑ x ’ i 2 ) \hat{w}_0\sim N(w_0, \frac{\hat{\sigma}^2 \sum x_i^2}{n\sum x’_i^2}) w^0N(w0,nxi2σ^2xi2), w ^ 1 ∼ N ( w 1 , 2 σ ^ 2 ∑ x ’ i 2 ) \hat{w}_1\sim N(w_1, ^2\frac{\hat{\sigma}^2}{\sum x’_i^2}) w^1N(w1,2xi2σ^2).
标准差可以用来衡量估计值接近于其真实值的程度,进而判定估计量的可靠性。其参数的标准差就是summary中的std.error,据此可以得到参数的95%置信区间

Confint(data.lm)

5.4 正态条件下的模型检验

5.4.1 拟合优度的检验
总离差由两部分组成,系统偏差和残差,系统偏差越大,残差越小。加总离差会存在抵消的情况,所以考虑的是离差平方的情况。总离差平方和=残差平方和+回归平方和,SS_total=SS_residual+SS_regression
∑ ( y i − y ˉ ) 2 = ∑ ( y i − y ^ ) 2 + ∑ ( y ^ i − y ˉ ) \sum(y_i-\bar{y})^2=\sum(y_i-\hat{y})^2+\sum(\hat{y}_i-\bar{y}) (yiyˉ)2=(yiy^)2+(y^iyˉ) .
这也是方差分析ANOVA的原理基础, R 2 = S S R S S T R^2=\frac{SSR}{SST} R2=SSTSSR表示样本判定系数,表示回归直线与样本观测值拟合优度,调整后的R方借助了残差自由度进行修正。
F = ∑ y ’ i 2 / k ∑ e i 2 / ( n − k − 1 ) F=\frac{\sum y’_i^2/k}{\sum e_i^2/(n-k-1)} F=ei2/(nk1)yi2/k f检验,一元线性中模型的整体检验用t,多元模型中用F检验更有效。

第六章 多元线性回归

y = X w + u y=Xw+u y=Xw+u
多元线性回归模型在满足线性关系下,还要满足假定:零均值假定(干扰项均值为0)、同方差假定(变量方差为0)、相互独立假定(变量协方差为0)、无多重共线性假定(无线性关系)。

6.4 多元回归模型检验

构建的模型是否具有一定的解释力?模型检验!
6.4.1 线性回归的显著性
H 0 : w 1 = w 2 = … = w m = 0 V . S . H 1 : w i 不全为 0 H_0:w_1=w_2=…=w_m=0 V.S. H_1:w_i不全为0 H0:w1=w2==wm=0V.S.H1:wi不全为0,如果SSR远远大于SSE,说明回归部分的波动对总离差贡献较大,也能说明回归系数不全为0。在原假设H0成立的情况下,可以计算F统计量及其对应的p值。
6.4.2 回归系数的显著性
当线性回归检验拒绝原假设后,需要判断每一个系数是否都足够大,即系数对应的变量是否对y的波动有影响,影响程度就是系数值。此时系数的检验就是观察每一个变量x与y的随机扰动项,用t统计量可以得知在e和y的波动相关性有多大,相关性越大越显著。

2*(1-pt(t-value))

线性和系数都通过显著性检验后,说明模型对总体具有一定的解释力,可以根据模型做预测。

Predict(data.lm,data,interval=”prediction”)

6.6 格兰杰因果关系检验

若x是引起y变化的原因,则必须满足两个条件:x有助于y的预测 和 y不应当有助于x的预测。
首先,提出假设“Ha0:x不是引起y变化的格兰杰原因”,然后将x和y交换位置“Hb0:y不是引起x变化的格兰杰原因”,最后,同时满足拒绝Ha0接受Hb0的,才是满足x是y变化原因的结论。

Ts.data<-ts(data)
Library(lmtest)
Grangertest(x~y,order=2,ts.data)  
Grangertest(y~x,order=2,ts.data)  
# 第一个不拒绝,第二个拒绝,所以x是y的格兰杰r原因

# 第七章 线性回归进阶
## 7.1 更多回归模型函数形式
讨论参数满足线性模型,但变量不是线性模型的情况。
双对数模型(对数-对数模型,比如C-D生产函数)、倒数模型(比如菲利普斯曲线、恩格尔消费曲线)、多项式回归模型(x的各阶乘方与x是非线性的,满足非共线性假设)。
```r
##多项式回归,拟合度好,但是不要高度拟合
Data.lm1<-lm(y~x,data)
Data.lm3<-lm(y~x+I(x^2)+I(x^3),data)
Summary(data.lm3)

7.2 回归模型的评估与选择

##嵌套模型选择ANOVA(对两个模型的残差平方和RSS进行比较)
Anova(data.lm1,data.lm3)
##赤池信息准则AIC,选择AIC小的模型。当样本无穷大时BIC有更好的考虑
AIC(data.lm);BIC(data.lm);extractAIC(data.lm)
##逐步回归方法
Step(data.lm,~.,direction=”backward”)##向后选择
Step(data.lm,~.+x1+x2+x3+x4)##向前选择

7.3 现代回归方法的新进展

当自变量有多重共线性时,OLS表现较差,此时基于改进OLS后的岭回归和LASSO方法有较好表现。
岭回归的思想是对系数矩阵XTX加一个正常数矩阵λI,使得XTX+λI更加接近奇异。
LASSO回归的思想是在需要离差平方和最小的条件下引入一个惩罚因子,压缩离差平方和。
“损失函数”防止模型“欠拟合”,“惩罚项”防止模型“过拟合”。LASSO是基于L1范数的正则化回归(控制了过拟合的回归),岭回归是基于L2范数的正则化回归。

第七章 线性回归进阶

7.1 更多回归模型函数形式

讨论参数满足线性模型,但变量不是线性模型的情况。
双对数模型(对数-对数模型,比如C-D生产函数)、倒数模型(比如菲利普斯曲线、恩格尔消费曲线)、多项式回归模型(x的各阶乘方与x是非线性的,满足非共线性假设)。

##多项式回归,拟合度好,但是不要高度拟合
Data.lm1<-lm(y~x,data)
Data.lm3<-lm(y~x+I(x^2)+I(x^3),data)
Summary(data.lm3)

7.2 回归模型的评估与选择

##嵌套模型选择ANOVA(对两个模型的残差平方和RSS进行比较)
Anova(data.lm1,data.lm3)
##赤池信息准则AIC,选择AIC小的模型。当样本无穷大时BIC有更好的考虑
AIC(data.lm);BIC(data.lm);extractAIC(data.lm)
##逐步回归方法
Step(data.lm,~.,direction=”backward”)##向后选择
Step(data.lm,~.+x1+x2+x3+x4)##向前选择

7.3 现代回归方法的新进展

当自变量有多重共线性时,OLS表现较差,此时基于改进OLS后的岭回归和LASSO方法有较好表现。
岭回归的思想是对系数矩阵XTX加一个正常数矩阵λI,使得XTX+λI更加接近奇异。
LASSO回归的思想是在需要离差平方和最小的条件下引入一个惩罚因子,压缩离差平方和。
“损失函数”防止模型“欠拟合”,“惩罚项”防止模型“过拟合”。LASSO是基于L1范数的正则化回归(控制了过拟合的回归),岭回归是基于L2范数的正则化回归。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值