R数据分析——回归分析

最新推荐文章于 2024-07-17 17:13:36 发布

kidpea_lau

最新推荐文章于 2024-07-17 17:13:36 发布

阅读量4.6k

点赞数 5

分类专栏： R语言数据分析文章标签： R

本文链接：https://blog.csdn.net/kidpea_lau/article/details/83324282

版权

回归分析是统计学的关键，基于OLS方法最小化残差平方和。R包提供回归诊断图表来检查正态性、独立性、线性和同方差性假设。通过mtcars数据集示例，展示了简单线性回归和多元线性回归的过程，强调逐步回归在模型选择中的作用。同时，文中提到评估模型性能的多种方法，如相关性分析、VIF检验和条件系数检验。

摘要由CSDN通过智能技术生成

回归分析：

回归分析可谓统计学的核心。回归分析是指一个或多个自变量（Xi）来预测因变量（Yi）的方法。

其基础思想是最少二乘法（OLS：ordinary least square）： $\hat{Y_{i}} =\hat{\beta _{0}}+\hat{\beta _{1}}X_{li}+.....+\hat{\beta _{k}}X_{ki}, i=1,....n$ ...............（1）

要得到拟合得最好的（1），要使其残差平方和（RSS：residual sum of squares/sum squared residual）要达到min： $\sum_{1}^{n}(Y_{i}-\hat{Y_{i}})^2 = \sum_{1}^{n}(Y_{i}\hat{\beta _{0}}- [\hat{\beta _{1}}X_{1i}+.....+\hat{\beta _{k}}X_{ki}])^2 = \sum_{1}^{n}(\varepsilon ^2)$ ....................（2）；

且数据也有以下四点统计假设：

正态性：对于固定的自变量，因变量成正态分布。
独立性： $Y_{i}$之间相互独立。
线性：因变量与自变量之间为线性相关
同方差性：因变量的方差不随自变量的水平不同而变化。也可以称为不变方差。

【违背了以上假设，你的统计显著性检验结果和所得的置信区间就很可能不精确了。】

而以上四点，可以由R包的回归诊断plot（fit）来检验：

【回归诊断技术向你提供了评价回归模型适用性的必要工具，能帮助发现并纠正问题。】

下面使用R常用的数据集mtcar作为例子来深入了解一下：

> fit1<-lm(mpg~wt,data = mtcars)
> par(mfrow=c(2,2))
> plot(fit1)

这四副图从上往下，从左往右依次是：

-residuals vs Fitted：

残差与拟合图，看到一个曲线关系，这暗示着你可能需要对回归模型加上一个二次项。

-normal Q~Q（*）：

正态Q-Q图：若满足正态假设，针对QLS的统计假设中的正态性，图上的点应该落在呈45度角的直线上；若不是如此，那么就违反了正态性的假设

-Scale-Location：

尺寸位置图，满足同方差性（若满足不变方差假设）要求在水平线周围的点是随机分布的

-Residuals vs Leverage（残差与杠杆图）：

提供了你可能关注的单个观测点的信息。从图形可以鉴别出离群点、高杠杆值点和强影响点

-而 独立性 你无法从这些图中分辨出因变量的值是否相互独立，只能从收集的数据中来验证。

期望模型的拟合结果：

通过模型的构建，主要目的是：解释和预测，最终会希望得到：

”有用的“变量
可进行预测的模型
离群值

得到一个合理的模型具体有以下四个步骤：

拟合模型：

首先分为两种模型来进行：

简单线性回归
多元线性回归

—简单回归模型：

> fit<-lm(mpg~wt,data=mtcars)
> summary(fit)

Call:
lm(formula = mpg ~ wt, data = mtcars)

Residuals:
    Min      1Q  Median      3Q     Max 
-4.5432 -2.3647 -0.1252  1.4096  6.8727 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  37.2851     1.8776  19.858  < 2e-16 ***
wt           -5.3445     0.5591  -9.559 1.29e-10 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.046 on 30 degrees of freedom
Multiple R-squared:  0.7528,	Adjusted R-squared:  0.7446 
F-statistic: 91.38 on 1 and 30 DF,  p-value: 1.294e-10
#其中
##T 检验中查看解释变量的显著性；
##R-squared 查看方程的拟合程度；