aic python_python生态系统中的线性回归

线性回归是预测定量响应的常用工具,但其成功依赖于数据性质的假设。文章探讨了如何使用statsmodels库进行多元线性回归的模型质量评估,包括残差分析、正态性检验和多重共线性检查。尽管Scikit-learn在机器学习任务中广泛应用,但它缺乏内置的模型质量统计测试。作者呼吁数据科学管道中应包含统计测试来评估模型质量。
摘要由CSDN通过智能技术生成

206accf10c6ac0710ff27c0e9eb4cfce.png

作者 | Rihad Variawa

来源 | Medium

编辑 | 代码医生团队

7fb6d610fc7e36982561fc28848d11cf.png

需求最大的受监督机器学习算法之一是线性回归。线性回归扎根于统计领域,因此必须检查模型的拟合优度。

线性回归是预测定量响应的简单实用工具。回归的总体思路是检查两件事。首先,它检查一组独立变量(X)是否能很好地预测结果变量(Y)。其次,它决定哪些变量尤其是结果变量的重要预测因子,以及它们通过beta的大小和符号表示的方式估计结果变量的影响。这些线性回归估计用于解释一个因变量之间的关系。在数学上,线性回归估计线性回归函数,定义为:

y = c + b * x + b

其中y =估计因变量得分,c =常数,b =回归系数,x =自变量得分。

回归技术有多种形式-线性,非线性,有毒,基于树,但是其核心思想在整个频谱上仍然几乎相似,并且可以应用于各种数据驱动的分析问题,例如金融,医疗保健,服务,线性回归是最基础的技术,它根植于经过时间考验的统计学习和推理理论,并为现代数据科学管道中使用的所有基于回归的算法提供了支持。

但是,线性回归模型的成功还取决于一些基本假设:它试图建模的基础数据的性质。

通过验证是否合理地满足了这些假设,检查线性回归模型的质量至关重要(通常使用可视化分析方法,这些方法需要进行解释才能用于检查这些假设)。

问题在于,检查模型的质量通常是数据科学流程中优先级较低的方面,在该流程中,其他优先级占主导地位-预测,扩展,部署和模型调整。

经常使用statsmodels库通过运行拟合优度测试来检查模型。像这样在基于Python的数据科学学习中很常见:

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值