线性回归及在R中应用(一)

回归模型就是假定因变量自变量之间有某种关系,希望能够用适当的数学模型把这种关系表达出来,进而利用这一模型根据给定的自变量来预测因变量。只涉及一个自变量时称为一元回归,涉及多个因变量为多元回归,如果因变量与自变量之间是线性关系,称线性回归(linear regression),如果非非线性关系称为非线性回归。

用途:预测,判别合理性

线性回归分析:一元线性;多元线性;广义线性

困难:选定变量(多元),避免多重共线性,观察拟合方程,避免过度拟合,检验模型是否合理

一元线性回归模型

若X与Y之间存在着较强的相关关系,则我们有Y≈α+βX

若α与β的值已知,给出相应的X值,我们可以根据Y≈α+βX得到相应的Y的预测值,即

其中α为截距,β为斜率,ε为误差项

如何确定参数?

(1)设真实值为 y,预测值为,寻找合适的参数,使的平方误差和最小


(2)最小二乘法


RSS其实是关于α与β的函数,分别对α不β求偏导并令偏导等于0,就可以得出α不β的值


从而,对于每个xi,我们可以通过 预测相应的y值


在R中进行线性回归分析

适用于多远线性模型的基本函数是lm(),其调用形式是fitted.model<-lm(formula,data=data.frame)

其中formula为模型公式,data.frame为数据框,返回值为线性模型结果的对象,存放在fitted.model中。如

fm1 <- lm(y~x1+x2,data=production)

适应于y关于x1和x2的多元回归模型(隐含着截距项)

y~1+x或y~x均表示y=a+bx有截距形式的线性模型

        通过远点的线性模型可以表达为:y~x-1或y~x+0或y~0+x

与线性模型有关的R函数使用






summary(a)输出结果分析

得到输出结果如下:


汇总数据的解释

w=α+βh

-140.3644为截距α,1.1591为斜率β,0.1.79为β的标准差,17.5026为α的标准差

 Estimate(估计值)Std.Error(标准差)t value(t假设检验)Pr(>|t|)(用来与显著性水平比较决定是否接受该假设检验)显著性标记(***极度显著,**高度显著,*显著,圆点不太显著,没有记号不显著)
Intercept(截距α)截距截距标准差截距进行假设检验的t值  
h(斜率β)斜率斜率标准差斜率进行假设检验的t值  


Residuals:残差分析数据,包括最大最小值,四分位数等
Coefficients:回归方程的系数,以及推算的系数的标准差,t值,P-值
F-statistic:F检验值
Signif:显著性标记,***极度显著,**高度显著,*显著,圆点不太显著,没有记号不显著

Multiple R-squared为相关系数平方







评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值