R数据分析——回归分析

回归分析是统计学的关键,基于OLS方法最小化残差平方和。R包提供回归诊断图表来检查正态性、独立性、线性和同方差性假设。通过mtcars数据集示例,展示了简单线性回归和多元线性回归的过程,强调逐步回归在模型选择中的作用。同时,文中提到评估模型性能的多种方法,如相关性分析、VIF检验和条件系数检验。
摘要由CSDN通过智能技术生成

 回归分析:

      回归分析可谓统计学的核心。回归分析是指一个或多个自变量(Xi)来预测因变量(Yi)的方法。


       其基础思想是最少二乘法(OLS:ordinary least square):\hat{Y_{i}} =\hat{\beta _{0}}+\hat{\beta _{1}}X_{li}+.....+\hat{\beta _{k}}X_{ki}, i=1,....n...............(1)

要得到拟合得最好的(1),要使其残差平方和(RSS:residual sum of squares/sum squared residual)要达到min:                                                   \sum_{1}^{n}(Y_{i}-\hat{Y_{i}})^2 = \sum_{1}^{n}(Y_{i}\hat{\beta _{0}}- [\hat{\beta _{1}}X_{1i}+.....+\hat{\beta _{k}}X_{ki}])^2 = \sum_{1}^{n}(\varepsilon ^2)....................(2);

且数据也有以下四点统计假设:

  1. 正态性:对于固定的自变量,因变量成正态分布。
  2. 独立性: $Y_{i}$之间相互独立。
  3. 线性: 因变量与自变量之间为线性相关
  4. 同方差性:因变量的方差不随自变量的水平不同而变化。也可以称为不变方差。

                                    【违背了以上假设,你的统计显著性检验结果和所得的置信区间就很可能不精确了。】

而以上四点,可以由R包的回归诊断plot(fit)来检验:

                                                         【回归诊断技术向你提供了评价回归模型适用性的必要工具,能帮助发现并纠正问题。】

         下面使用R常用的数据集mtcar作为例子来深入了解一下:

> fit1<-lm(mpg~wt,data = mtcars)
> par(mfrow=c(2,2))
> plot(fit1)

 

这四副图从上往下,从左往右依次是:

-residuals vs Fitted:

残差与拟合图,看到一个曲线关系,这暗示着你可能需要对回归模型加上一个二次项。

 

-normal Q~Q(*):

正态Q-Q图:若满足正态假设,针对QLS的统计假设中的正态性,图上的点应该落在呈45度角的直线上;若不是如此,那么就违反了正态性的假设

 

-Scale-Location:

尺寸位置图,满足同方差性(若满足不变方差假设)要求在水平线周围的点是随机分布的

 

-Residuals vs Leverage(残差与杠杆图):

提供了你可能关注的单个观测点的信息。从图形可以鉴别出离群点、高杠杆值点和强影响点

 

-而  独立性 你无法从这些图中分辨出因变量的值是否相互独立,只能从收集的数据中来验证。


期望模型的拟合结果:

     通过模型的构建,主要目的是:解释和预测,最终会希望得到:

  1. ”有用的“变量
  2. 可进行预测的模型
  3. 离群值

 得到一个合理的模型具体有以下四个步骤:


 

  • 拟合模型:

首先分为两种模型来进行:

  • 简单线性回归
  • 多元线性回归

—简单回归模型:

> fit<-lm(mpg~wt,data=mtcars)
> summary(fit)

Call:
lm(formula = mpg ~ wt, data = mtcars)

Residuals:
    Min      1Q  Median      3Q     Max 
-4.5432 -2.3647 -0.1252  1.4096  6.8727 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  37.2851     1.8776  19.858  < 2e-16 ***
wt           -5.3445     0.5591  -9.559 1.29e-10 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.046 on 30 degrees of freedom
Multiple R-squared:  0.7528,	Adjusted R-squared:  0.7446 
F-statistic: 91.38 on 1 and 30 DF,  p-value: 1.294e-10
#其中
##T 检验中查看解释变量的显著性;
##R-squared 查看方程的拟合程度;
  • 5
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
商务数据分析与应用——基于R课后习题解析是针对商务数据分析的一门课程,通过学习和应用R语言的相关知识与技术,来解决商务数据分析的问题和挑战。以下是对该课程的习题解析。 该课程的习题主要涵盖了数据导入与整理、数据可视化、统计分析、机器学习等多个方面。 在数据导入与整理方面,学生需要掌握如何使用R语言中的相关函数和包来导入不同格式的数据,如CSV、Excel等。此外,还需学习如何对数据进行清洗和处理,包括缺失值处理、异常值处理等。 在数据可视化方面,学生需要学习如何使用R语言中的ggplot2包来绘制各种类型的图形,如散点图、柱状图、折线图等,以便更直观地展示数据。 在统计分析方面,学生需要学习如何使用R语言中的相关函数和包进行统计分析,如描述性统计分析、假设检验、回归分析等。学生还需要学习如何解读和解释统计分析的结果。 在机器学习方面,学生需要学习如何使用R语言中的机器学习包,如caret、randomForest等,来构建和评估机器学习模型。学生还需学习如何选择合适的特征变量、调整模型的参数以及评估模型的性能。 通过完成这些习题,学生可以巩固和应用所学的相关知识和技术,提高商务数据分析的能力和水平。同时,通过解析习题,学生可以更好地理解和掌握R语言的使用,为将来在商务数据分析工作中的应用提供实际操作的指导。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值