手把手教你用Python进行回归（附代码、学习资料）

最新推荐文章于 2025-04-22 03:27:56 发布

数据派THU

最新推荐文章于 2025-04-22 03:27:56 发布

阅读量3.2w

点赞数 27

本文链接：https://blog.csdn.net/tMb8Z9Vdm66wH68VX1/article/details/79922750

版权

本文介绍了线性回归、多项式回归及其局限性，重点讲解了样条回归的概念和实现，包括分段阶梯函数、基函数、分段多项式以及自然三次样条。通过Python代码示例，展示了样条回归如何处理非线性关系，提高模型预测能力。文章以工资预测数据集为例，对比了不同回归方法的效果，并探讨了如何选择和确定样条回归的节点数量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

作者： GURCHETAN SINGH

翻译：张逸

校对：丁楠雅

本文共5800字，建议阅读8分钟。
本文从线性回归、多项式回归出发，带你用Python实现样条回归。

我刚开始学习数据科学时，第一个接触到的算法就是线性回归。在把这个方法算法应用在到各种各样的数据集的过程中，我总结出了一些它的优点和不足。

首先，线性回归假设自变量和因变量之间存在线性关系，但实际情况却很少是这样。为了改进这个问题模型，我尝试了多项式回归，效果确实好一些（大多数情况下都是如此会改善）。但又有一个新问题：当数据集的变量太多的时候，用多项式回归很容易产生过拟合。

由于而且我建立的模型总是过于灵活，它可能在测试集上结果很好，但在那些“看不见的”数据上表现的就差强人意了。后来我看到另外一种称为样条回归的非线性方法---它将线性/多项式函数进行组合，用最终的结果来拟合数据。

在这篇文章中，我将会介绍线性回归、多项式回归的基本概念，然后详细说明关于样条回归的更多细节以及它的Python实现。

注：为了更好的理解本文中所提到的各种概念，你需要有线性回归和多项式回归的基础知识储备。这里有一些相关资料可以参考：

https://www.analyticsvidhya.com/blog/2015/08/comprehensive-guide-regression/

本文结构

了解数据
简单回顾线性回归
多项式回归：对线性会回归的改进
理解样条回归及其实现

- 分段阶梯函数

- 基函数
- 分段多项式
- 约束和样条
- 三次样条和自然三次样条
- 确定节点的数量和位置
- 比较样条回归和多项式回归

了解数据

为了更好的理解这些概念，我们选择了工资预测数据集来做辅助说明。你可以在这儿下载：

https://drive.google.com/file/d/1QIHCTvHQIBpilzbNxGmbdEBEbmEkMd_K/view

这个数据集是从一本最近热门的书《Introduction to Statistical learning》（http://www-bcf.usc.edu/~gareth/ISL/ ISLR%20Seventh%20Printing.pdf）上摘取下来的。

我们的数据集包括了诸如ID、出生年份、性别、婚姻状况、种族、教育程度、职业、健康状况、健康保险和工资记录这些信息。为了详细解释样条回归，我们将只用年龄作为自变量来预测工资（因变量）。

让我们开始吧：

#导入需要的包

import pandas as pd

import numpy as np

import statsmodels.api as sm

import matplotlib.pyplot as plt

%matplotlib inline

#读入数据

data = pd.read_csv("Wage.csv")

data.head()

我们会得到这样的结果：

继续：

data_x = data['age']

data_y = data['wage']

#将数据划分为训练集和验证集

from sklearn.model_selection import train_test_split

train_x, valid_x, train_y, valid_y = train_test_split(data_x, data_y, test_size=0.33, random_state = 1)

#对年龄和工资的关系进行可视化

import matplotlib.pyplot as plt

plt.scatter(train_x, train_y, facecolor='None', edgecolor='k', alpha=0.3)plt.show()