多元线性回归dw值_《算法模型篇》——多元线性回归

我一度认为多元线性回归是统计学的终点。

还在中学的时候,我接触到了“数学模型”一词,那时觉得数学模型特别高大上,甚至觉得这是脱离了平面是一种三维立体的东西。尽管高中的时候就已经接触回归方程了,但那时根本没觉得这和数据模型有什么关系。后来本科的时候开始学多元线性回归,觉得这只是开了个头,后面肯定会教那种三维的立体的数学模型的,结果无论是统计学、概率论、计量通通最多都只教到多元回归。我不死心,去翻阅各类统计学教程,基本也都是教完多元回归书就戛然而止了。

研究生的时候仍然要学多元线性回归,但也知道了除了多元线性回归之外还有很多模型可以应用,但是以多元线性归回的易用性和可解释性来看,各行各业包括学术研究还是在广泛地使用多元线性回归,所以对大部分的人来说统计学的终点是多元线性回归其实也不算错。

除了多元线性回归具有方便使用和可解释性强的优点外,我们为什么还是要学习多元线性回归呢,直接用各种最新最前沿的模型不可以吗?

如果要做类比的话,多元线性回归有点像牛顿的经典物理力学体系,学习牛顿的三条定律后可以解释低速宏观的各种现象,这就是其易用性和高可解释性,在这种场景下就没必要去考虑量子力学和相对论。而多元线性回归又是其他模型的基础,如后面会讲到的逻辑回归(logistics model),尽管是分类模型却是从多元线性回归演变过来的,所以学习多元线性回归,了解其基本思路和方法能够帮助我们打好基础然后进一步学习和应用其他模型。

小结一下就是,学习多元线性回归是因为其仍可被广泛应用在各种领域和场景并且具有很好的解释性,同时也是学习其他模型的基础。

啰嗦了一大串关于多元线性模型的背景后,下面开始正式讲解多元线性回归了。

还记得在《算法模型篇》——从雪糕店讲起里的一元线性回归吗?对多元线性回归最简单直接的解释就是从一元线性回归中的一个输入变量,或者叫自变量,拓展成多个输入变量。在本篇里我会用工业蒸汽量预测赛题与数据-天池大赛-阿里云天池里的数据一步步完成多元线性回归的建模,并按统计学派的统计假设检验的流程分析模型的有效性。如前所述,本篇更侧重于多元线性回归的应用,原理讲解和公式推导会被尽可能地压缩。

对“工业蒸汽量预测”的分析和建模流程如下:

1、数据概览

2、探索性性分析

3、建模和和优化

我们先来看一下数据长什么样子:

4ff83d1b5e9dd18b3525beec6208fd21.png

e55abcd9ea42685a0362be5c6848ede6.png
由于变量较多,故仅展示一部分

总共有38个自变量,target是因变量,2888条数据,无缺失值,数据均经过脱敏处理。<

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值