python实现K折交叉检验实例

最新推荐文章于 2024-09-22 17:12:26 发布

creep_9

最新推荐文章于 2024-09-22 17:12:26 发布

阅读量4.4k

点赞数 2

分类专栏：机器学习文章标签： python 机器学习数据分析

本文链接：https://blog.csdn.net/Velpro778/article/details/109178522

版权

本文通过一个住房数据案例，介绍了如何使用Python进行K折交叉检验。首先，利用sklearn库的train_test_split划分训练集和测试集，然后用LinearRegression拟合回归线。接着，借助patsy库的dmatrices处理数据格式，便于在sklearn中使用。最后，通过sklearn的交叉验证函数执行K折交叉验证，并计算平均系数和模型评分，以此来评估模型性能。

摘要由CSDN通过智能技术生成

在样本数量不是很多的情况下，想要检验拟合一个完美的模型。最常见的方法就是K折交叉检验。

写一个住房数据案例

# 先把数据分成k个部分，把其中一个部分用作测试集，把其余部分用作训练集以拟合模型
# 模型拟合好之后，使用测试集进行 测试，并计算误差。不断重复这个过程，知道k个部分都测试过。
# 模型的最终误差是所有模型的平均值

import pandas as pd
housing=pd.read_csv('housing_renamed.csv')
from sklearn.model_selection import train_test _split
from sklearn.linear_model import LinearRegression
print(housing.columns)

以上工作就是读取文件，调用我们需要的模块。
第一个模块是分训练样本和测试样本的模块，从sklearn.model_selection中调用，即train_test_split。

其次是拟合回归线的 sklearn.linear_model 中调用LinearRegression。

由于sklearn高度依赖Numpy ndarray,所以patsy库允许指定一个公式，比如statsmodels中的公式API，并且会返回合适的Numpy数组，以便在sklearn中使用。
这里我们再从patsy中调用一个dmatrices。

from patsy import dmatrices
# 获取训练数据和测试数据
y,X=dmatrices('value_per_sq_ft~units+sq_ft+boro',housing,return_type='dataframe')
# 给y和x指定变量

最低0.47元/天解锁文章

creep_9

关注

2
点赞
踩
14

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录