回归模型就是假定因变量与自变量之间有某种关系,希望能够用适当的数学模型把这种关系表达出来,进而利用这一模型根据给定的自变量来预测因变量。只涉及一个自变量时称为一元回归,涉及多个因变量为多元回归,如果因变量与自变量之间是线性关系,称线性回归(linear regression),如果非非线性关系称为非线性回归。
用途:预测,判别合理性
线性回归分析:一元线性;多元线性;广义线性
困难:选定变量(多元),避免多重共线性,观察拟合方程,避免过度拟合,检验模型是否合理
一元线性回归模型
若X与Y之间存在着较强的相关关系,则我们有Y≈α+βX
若α与β的值已知,给出相应的X值,我们可以根据Y≈α+βX得到相应的Y的预测值,即
,其中α为截距,β为斜率,ε为误差项
如何确定参数?
(1)设真实值为 y,预测值为,寻找合适的参数,使的平方误差和最小
(2)最小二乘法
RSS其实是关于α与β的函数,分别对α不β求偏导并令偏导等于0,就可以得出α不β的值
从而,对于每个xi,我们可以通过 预测相应的y值
在R中进行线性回归分析
适用于多远线性模型的基本函数是lm(),其调用形式是fitted.model<-lm(formula,data=data.frame)
其中formula为模型公式,data.frame为数据框,返回值为线性模型结果的对象,存放在fitted.model中。如
fm1 <- lm(y~x1+x2,data=production)
适应于y关于x1和x2的多元回归模型(隐含着截距项)
y~1+x或y~x均表示y=a+bx有截距形式的线性模型
通过远点的线性模型可以表达为:y~x-1或y~x+0或y~0+x
与线性模型有关的R函数使用
summary(a)输出结果分析
得到输出结果如下:
汇总数据的解释
w=α+βh
-140.3644为截距α,1.1591为斜率β,0.1.79为β的标准差,17.5026为α的标准差
Estimate(估计值) | Std.Error(标准差) | t value(t假设检验) | Pr(>|t|)(用来与显著性水平比较决定是否接受该假设检验) | 显著性标记(***极度显著,**高度显著,*显著,圆点不太显著,没有记号不显著) | |
Intercept(截距α) | 截距 | 截距标准差 | 截距进行假设检验的t值 | ||
h(斜率β) | 斜率 | 斜率标准差 | 斜率进行假设检验的t值 |
Coefficients:回归方程的系数,以及推算的系数的标准差,t值,P-值
F-statistic:F检验值
Signif:显著性标记,***极度显著,**高度显著,*显著,圆点不太显著,没有记号不显著
Multiple R-squared为相关系数平方