回归分析:
回归分析可谓统计学的核心。回归分析是指一个或多个自变量(Xi)来预测因变量(Yi)的方法。
其基础思想是最少二乘法(OLS:ordinary least square):...............(1)
要得到拟合得最好的(1),要使其残差平方和(RSS:residual sum of squares/sum squared residual)要达到min: ....................(2);
且数据也有以下四点统计假设:
- 正态性:对于固定的自变量,因变量成正态分布。
- 独立性: $Y_{i}$之间相互独立。
- 线性: 因变量与自变量之间为线性相关
- 同方差性:因变量的方差不随自变量的水平不同而变化。也可以称为不变方差。
【违背了以上假设,你的统计显著性检验结果和所得的置信区间就很可能不精确了。】
而以上四点,可以由R包的回归诊断plot(fit)来检验:
【回归诊断技术向你提供了评价回归模型适用性的必要工具,能帮助发现并纠正问题。】
下面使用R常用的数据集mtcar作为例子来深入了解一下:
> fit1<-lm(mpg~wt,data = mtcars)
> par(mfrow=c(2,2))
> plot(fit1)
这四副图从上往下,从左往右依次是:
-residuals vs Fitted:
残差与拟合图,看到一个曲线关系,这暗示着你可能需要对回归模型加上一个二次项。
-normal Q~Q(*):
正态Q-Q图:若满足正态假设,针对QLS的统计假设中的正态性,图上的点应该落在呈45度角的直线上;若不是如此,那么就违反了正态性的假设
-Scale-Location:
尺寸位置图,满足同方差性(若满足不变方差假设)要求在水平线周围的点是随机分布的
-Residuals vs Leverage(残差与杠杆图):
提供了你可能关注的单个观测点的信息。从图形可以鉴别出离群点、高杠杆值点和强影响点
-而 独立性 你无法从这些图中分辨出因变量的值是否相互独立,只能从收集的数据中来验证。
期望模型的拟合结果:
通过模型的构建,主要目的是:解释和预测,最终会希望得到:
- ”有用的“变量
- 可进行预测的模型
- 离群值
得到一个合理的模型具体有以下四个步骤:
-
拟合模型:
首先分为两种模型来进行:
- 简单线性回归
- 多元线性回归
—简单回归模型:
> fit<-lm(mpg~wt,data=mtcars)
> summary(fit)
Call:
lm(formula = mpg ~ wt, data = mtcars)
Residuals:
Min 1Q Median 3Q Max
-4.5432 -2.3647 -0.1252 1.4096 6.8727
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 37.2851 1.8776 19.858 < 2e-16 ***
wt -5.3445 0.5591 -9.559 1.29e-10 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 3.046 on 30 degrees of freedom
Multiple R-squared: 0.7528, Adjusted R-squared: 0.7446
F-statistic: 91.38 on 1 and 30 DF, p-value: 1.294e-10
#其中
##T 检验中查看解释变量的显著性;
##R-squared 查看方程的拟合程度;