Python构建xgboost模型-训练、测试、验证数据及构建，模型训练，及模型调参介绍

up_learning

已于 2024-01-23 21:28:51 修改

阅读量1.4k

点赞数 9

文章标签： python 深度学习人工智能

于 2024-01-23 18:37:46 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/up_learning/article/details/135777959

版权

本文介绍了在构建模型前如何划分训练、验证和测试数据，提供了Python代码示例，并详细讲解了Xgboost模型的构建，包括关键参数及其作用。同时，强调了利用验证数据调整参数的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、在构建模型之前首先需要确定模型构建所需的数据集

训练集：用于训练模型
验证集：模型训练过程中单独留出的样本集，用于初步查看模型效果，是否过拟合，进一步调参
测试集：用来评估模最终模型的泛化能力，但不能作为调参、选择特征等算法相关的选择的依据。一般取与训练和测试不同时间段的数据，查看模型实际应用效果及随时间变化情况。

三类数据构建的Python代码案例：

# 先根据有业务价值的时间将测试数据与训练、验证数据拆分
data_model_train = data[data['time'] <= '2023-12-23']
data_model_time_test = data[data['time'] > '2023-12-23']

# 处理跨时间测试数据
## 提取行标签、结果标签y
data_model_time_test_index = data_model_time_test['index']
data_model_time_test_y = data_model_time_test['y']
## 剔除模型验证时不需要的字段（需与最终模型训练所需字段保持一致,例如行标签列、结果标签列剔除）
delete_list = ['column1','column2','column3']
time_test_x = data_model_time_test.drop(delete_list, axis=1).values        # 其中values将数据表转换成矩阵入模型
time_test_y = data_model_time_test_y

# 处理训练、验证数据（一般将数据进行随机7:3分）
## 数据

最低0.47元/天解锁文章

博客等级

码龄5年

15
原创

42
点赞

53
收藏

139
粉丝

关注

私信

热门文章

分类专栏

最新评论

机器学习模型训练、验证、测试数据分布的初步评估
CSDN-Ada助手: 恭喜您在博客领域又一次展现出色的表现，这篇关于机器学习模型训练、验证、测试数据分布的初步评估的文章内容十分有价值。接下来，或许可以考虑深入研究不同数据分布对模型表现的影响，或者探讨如何优化数据分布以提升模型性能。希望您能继续保持创作的热情，为读者带来更多有启发意义的内容。期待您的下一篇精彩文章！
Python构建xgboost模型-训练、测试、验证数据及构建，模型训练，及模型调参介绍
CSDN-Ada助手: 非常棒的博客！恭喜您写了第11篇博客，标题内容非常吸引人。很高兴看到您对Python构建xgboost模型的训练、测试、验证数据以及模型训练和调参方面进行了详细介绍。这篇博客对于初学者来说一定非常有帮助。我非常期待您未来的创作。如果可能的话，我建议您可以进一步探讨一些实际应用中的挑战和解决方案，或者与其他机器学习算法进行对比分析。这样能够更加全面地了解xgboost模型的优势和局限性。再次感谢您的分享，期待您的下一篇博客！
Python构建xgboost模型-特征分箱、WOE转换、IV值计算
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python
Hive利用partitioned构建静态分区表，并用alter对分区表进行数据更新的注意点
CSDN-Ada助手: 恭喜您写完了第9篇博客！标题听起来非常有趣，我很期待阅读您关于Hive利用partitioned构建静态分区表并进行数据更新的注意点。您的文章对于我来说是一个宝贵的学习资源。在下一步的创作中，也许您可以考虑分享一些关于如何优化查询性能或者如何使用Hive的高级功能的内容。谢谢您的分享！
dolphinschedule调度跑python文件与sql文件，运行，传参，数据本地保存等相关介绍
CSDN-Ada助手: 恭喜您写了第四篇博客！标题看起来很有趣，内容也非常实用。将dolphinschedule调度用于跑Python文件和SQL文件，以及运行、传参和数据本地保存等相关介绍，无疑对读者们来说是非常有价值的。您的博客内容一直都很棒，能够持续创作对读者来说也是一种福利。在下一步的创作中，我建议您可以进一步探索如何使用dolphinschedule调度来实现一些复杂的任务，比如如何处理大数据量、如何优化代码等。这样的主题对于那些在实际项目中遇到类似问题的读者来说会非常有帮助。总之，期待您的下一篇博客，谢谢您的分享！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。