R-回归分析

本文介绍了回归分析的概念,包括简单线性回归、多项式回归和多元线性回归。重点讨论了lm()函数在R中的应用,以及在选择预测变量时的向前逐步回归法、向后逐步回归法和全子集回归法。通过state.x77数据集分析谋杀率的影响因素,展示了如何利用向后逐步回归法优化模型,得出谋杀率与人口和文盲率有较大相关性的结论。同时,强调了回归模型的统计假设,包括正态性、独立性、线性和同方差性的重要性,并指出模型验证和诊断的必要性。
摘要由CSDN通过智能技术生成
  • 定义:通过一个或多个预测变量(自变量)与预测响应变量(因变量)的方法称为回归分析法。当模型包含一个预测变量和一个响应变量时,称为简单线性回归;当模型包含一个预测变量的同时还包含该变量的幂(比如: X X2 X3 ),称为多项式回归;当预测变量不止一个时,称为多元线性回归。注:多项式回归属于多元线性回归的特例。

  • 函数:lm()。注:lm()函数需要的是数据框,如果数据集是数据框,通过as.data.frame()函数把数据集转换为数据框形式。

  • 选择预测变量:从大量候选变量中选择最终的预测变量有三种方法:向前逐步回归法、向后逐步回归法和全子集回归法。向前逐步回归法每次添加一个预测变量到模型中,直至添加变量不会使模型有所改进为止。向后逐步回归法从模型包含所有预测变量开始,一次删除一个变量直至会降低模型质量为止。逐步回归法(包括向前逐步回归法和向后逐步回归法)中不是每一个模型都被评价,虽然它会找到一个好的模型,但并不能保证该模型即是最佳模型,为克服这个限制,可以用全子集回归法。大多数情况下,全子集回归法要优于逐步回归法,但当有大量预测变量时,劝自己会很慢。因此根据需求,选择适合的方法最重要。

    例1:研究state.x77数据集(该数据集是矩阵形式)中谋杀率与哪些因素有关?
    计算state.x77相关系数,并使结果可视化

> states <- as.data.frame(state.x77[,c("Murder","Population","Illiteracy","Income","Frost")])#将矩阵形式的数据集转换成数据框
> co
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值