R数据分析——回归分析

回归分析是统计学的关键,基于OLS方法最小化残差平方和。R包提供回归诊断图表来检查正态性、独立性、线性和同方差性假设。通过mtcars数据集示例,展示了简单线性回归和多元线性回归的过程,强调逐步回归在模型选择中的作用。同时,文中提到评估模型性能的多种方法,如相关性分析、VIF检验和条件系数检验。
摘要由CSDN通过智能技术生成

 回归分析:

      回归分析可谓统计学的核心。回归分析是指一个或多个自变量(Xi)来预测因变量(Yi)的方法。


       其基础思想是最少二乘法(OLS:ordinary least square):\hat{Y_{i}} =\hat{\beta _{0}}+\hat{\beta _{1}}X_{li}+.....+\hat{\beta _{k}}X_{ki}, i=1,....n...............(1)

要得到拟合得最好的(1),要使其残差平方和(RSS:residual sum of squares/sum squared residual)要达到min:                                                   \sum_{1}^{n}(Y_{i}-\hat{Y_{i}})^2 = \sum_{1}^{n}(Y_{i}\hat{\beta _{0}}- [\hat{\beta _{1}}X_{1i}+.....+\hat{\beta _{k}}X_{ki}])^2 = \sum_{1}^{n}(\varepsilon ^2)....................(2);

且数据也有以下四点统计假设:

  1. 正态性:对于固定的自变量,因变量成正态分布。
  2. 独立性: $Y_{i}$之间相互独立。
  3. 线性: 因变量与自变量之间为线性相关
  4. 同方差性:因变量的方差不随自变量的水平不同而变化。也可以称为不变方差。

                                    【违背了以上假设,你的统计显著性检验结果和所得的置信区间就很可能不精确了。】

而以上四点,可以由R包的回归诊断plot(fit)来检验:

                                                         【回归诊断技术向你提供了评价回归模型适用性的必要工具,能帮助发现并纠正问题。】

         下面使用R常用的数据集mtcar作为例子来深入了解一下:

> fit1<-lm(mpg~wt,data = mtcars)
> par(mfrow=c(2,2))
> plot(fit1)

 

这四副图从上往下,从左往右依次是:

-residuals vs Fitted:

残差与拟合图,看到一个曲线关系,这暗示着你可能需要对回归模型加上一个二次项。

 

-normal Q~Q(*):

正态Q-Q图:若满足正态假设,针对QLS的统计假设中的正态性,图上的点应该落在呈45度角的直线上;若不是如此,那么就违反了正态性的假设

 

-Scale-Location:

尺寸位置图,满足同方差性(若满足不变方差假设)要求在水平线周围的点是随机分布的

 

-Residuals vs Leverage(残差与杠杆图):

提供了你可能关注的单个观测点的信息。从图形可以鉴别出离群点、高杠杆值点和强影响点

 

-而  独立性 你无法从这些图中分辨出因变量的值是否相互独立,只能从收集的数据中来验证。


期望模型的拟合结果:

     通过模型的构建,主要目的是:解释和预测,最终会希望得到:

  1. ”有用的“变量
  2. 可进行预测的模型
  3. 离群值

 得到一个合理的模型具体有以下四个步骤:


 

  • 拟合模型:

首先分为两种模型来进行:

  • 简单线性回归
  • 多元线性回归

—简单回归模型:

> fit<-lm(mpg~wt,data=mtcars)
> summary(fit)

Call:
lm(formula = mpg ~ wt, data = mtcars)

Residuals:
    Min      1Q  Median      3Q     Max 
-4.5432 -2.3647 -0.1252  1.4096  6.8727 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  37.2851     1.8776  19.858  < 2e-16 ***
wt           -5.3445     0.5591  -9.559 1.29e-10 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.046 on 30 degrees of freedom
Multiple R-squared:  0.7528,	Adjusted R-squared:  0.7446 
F-statistic: 91.38 on 1 and 30 DF,  p-value: 1.294e-10
#其中
##T 检验中查看解释变量的显著性;
##R-squared 查看方程的拟合程度;
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值