feature_names mismatch XGBoost错误解析

最新推荐文章于 2024-07-22 08:45:00 发布

BYR_jiandong

最新推荐文章于 2024-07-22 08:45:00 发布

阅读量1.4w

点赞数 4

分类专栏： Kaggle学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lujiandong1/article/details/52743396

版权

Kaggle学习笔记专栏收录该内容

9 篇文章 3 订阅

订阅专栏

feature_names mismatch 的错误就是训练集和测试集的特征个数不一致导致的。

一、

a.csv:最大小标是5。所以,训练集的特征维数就是6

b.csv:最大小标是4。所以,训练集的特征维数就是5

所以,就是训练集和测试集的训练特征的维数不一致，就会报错。

二、

a.csv:最大小标是4。所以,训练集的特征维数就是5

b.csv:最大小标是5。所以,训练集的特征维数就是6

所以，对于XGBoost的训练数据和测试数据,要能够保证训练数据的特征数，也即特征编号的最大值跟测试数据的特征数一致。

说明：解决该错误的方法就是扩展，让训练集和测试集特征的最大编号一样，比如说，我们可以在每条训练样本的最后都假设"5000:0"，前提是5000大于训练集和测试集特征的最大编号。那么，就需要分析，增加了5000：0对性能有影响吗，做了个小实验。

原始数据：

实验结果：

在末尾增加了10000:0后的数据：

实验结果：

说明：增加了10000:0之后，训练过程并没有受到任何影响，该方法可行。

关注

4
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。