作者 | Rihad Variawa
来源 | Medium
编辑 | 代码医生团队
需求最大的受监督机器学习算法之一是线性回归。线性回归扎根于统计领域,因此必须检查模型的拟合优度。
线性回归是预测定量响应的简单实用工具。回归的总体思路是检查两件事。首先,它检查一组独立变量(X)是否能很好地预测结果变量(Y)。其次,它决定哪些变量尤其是结果变量的重要预测因子,以及它们通过beta的大小和符号表示的方式估计结果变量的影响。这些线性回归估计用于解释一个因变量之间的关系。在数学上,线性回归估计线性回归函数,定义为:
y = c + b * x + b
其中y =估计因变量得分,c =常数,b =回归系数,x =自变量得分。
回归技术有多种形式-线性,非线性,有毒,基于树,但是其核心思想在整个频谱上仍然几乎相似,并且可以应用于各种数据驱动的分析问题,例如金融,医疗保健,服务,线性回归是最基础的技术,它根植于经过时间考验的统计学习和推理理论,并为现代数据科学管道中使用的所有基于回归的算法提供了支持。
但是,线性回归模型的成功还取决于一些基本假设:它试图建模的基础数据的性质。
通过验证是否合理地满足了这些假设,检查线性回归模型的质量至关重要(通常使用可视化分析方法,这些方法需要进行解释才能用于检查这些假设)。
问题在于,检查模型的质量通常是数据科学流程中优先级较低的方面,在该流程中,其他优先级占主导地位-预测,扩展,部署和模型调整。
经常使用statsmodels库通过运行拟合优度测试来检查模型。像这样在基于Python的数据科学学习中很常见: