Python的数据科学:8种线性回归的方法以及测量它们的速度

最新推荐文章于 2024-06-07 16:29:25 发布

Genius-Wang

最新推荐文章于 2024-06-07 16:29:25 发布

阅读量962

点赞数

文章标签： python 线性回归开发语言

本文探讨了使用Python进行线性回归的8种方法，包括Scipy.polyfit、stats.linregress、optimize.curve_fit等，对比了它们的优缺点和计算复杂性，特别关注了在大数据集上的效率。

摘要由CSDN通过智能技术生成

（以下机翻，仅供自己兴趣学习）

在本文中，我们讨论使用 Python 代码/包执行简单线性回归的 8 种方法。我们掩盖了它们的优点和缺点，并展示了它们的相对计算复杂性度量。

对于许多数据科学家来说，线性回归是许多统计建模和预测分析项目的起点。将线性模型（准确且快速）拟合到大型数据集的重要性怎么强调也不为过。正如本文所指出的，线性回归模型中的“LINEAR”术语指的是系数，而不是特征的程度。

特征（或自变量）可以是任何阶数，甚至可以是超越函数，如指数函数、对数函数、正弦函数。因此，即使输出和特征之间的函数关系是高度非线性的，也可以使用这些变换和线性模型对大量自然现象进行（近似）建模。

另一方面，Python 正在迅速崛起，成为数据科学家事实上的首选编程语言。因此，对于数据科学家来说，了解他/她可以快速将线性模型拟合到相当大的数据集并评估每个特征在过程结果中的相对重要性的所有各种方法至关重要。

然而，在Python中进行线性回归分析只有一种方法吗？当有多种方法可供选择时，如何选择最有效的方法？

由于机器学习库 scikit-learn 的广泛流行，一种常见的方法通常是从该库调用线性模型类并拟合数据。虽然这可以提供应用机器学习的其他管道功能（例如数据标准化、模型系数正则化、将线性模型馈送到另一个下游模型）的额外优势，但当数据分析师只需要快速了解数据时，这通常不是最快或最干净的方法。以及确定回归系数的简单方法（以及一些基本的相关统计数据）。

有更快、更干净的方法。但它们可能无法提供相同数量的信息或建模灵活性。

各种线性回归方法的完整样板代码可在我的 GitHub 存储库中找到。其中大多数都是基于 SciPy 包。

SciPy 是基于 Python 的 Numpy 扩展构建的数学算法和便利函数的集合。它通过为用户提供用于操作和可视化数据的高级命令和类，为交互式 Python 会话增添了强大的功能。

让我简要讨论一下每种方法，

Method: Scipy.polyfit( ) or numpy.polyfit( )

这是一个非常通用的最小二乘多项式拟合函数，它接受数据集和任意次数的多项式函数（由用户指定），并返回一个最小化平方误差的系数数组。这里给出了该功能的详细描述。对于简单线性回归，可以选择阶数 1。如果要拟合更高阶数的模型，可以从线性特征数据构造多项式特征并拟合该模型。

Method: Stats.linregress( )

在这里插入图片描述

这是 Scipy 统计模块中提供的高度专业化的线性回归函数。它的灵活性相当有限，因为它被优化为仅计算两组测量的线性最小二乘回归。因此，您无法使用它来拟合广义线性模型或多变量回归。但是，由于其特殊性，它是简单线性回归中最快的方法之一。除了拟合系数和截距项外，它还返回 R² 系数和标准误差等基本统计数据。