xgboost 训练大数据，内存不够 out of memory

最新推荐文章于 2024-02-27 23:30:00 发布

置顶

夕阳下江堤上的男孩

最新推荐文章于 2024-02-27 23:30:00 发布

阅读量9.7k

点赞数 4

分类专栏： Machine Learning 文章标签： xgboost 大数据内存不够 xgb out of memory

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/YE1215172385/article/details/86759858

版权

如果要训练（测试）的样本很多，达到上百上千万，单机载入不了内存时，可以采用如下方法：

1、生成libsvm文件

将要处理的数据分批（比如一次读10000行/个样本）读入内存，缺失值填充、特征过程等处理完毕之后，使用sklearn.datasets.dump_svmlight_file()将其转为libsvm数据格式保存到磁盘；libsvm格式也是每行一个样本，所以多个文件很容易合并（比如使用linux命令：cat file1>> file2）。

2、构造xgb.DMatrix

构造xgb.DMatrix时，采用指定libsvm文件的方式，并在libsvm文件名末尾加上缓存文件名，格式为：filename#cacheprefix

filename就是合并后的libsvm文件，cacheprefix就是自己指定一个文件名，用来给xgb缓存使用（这个文件不必提前自己创建）。

例如：

dtain = xgb.DMatrix(data = './data/engineering_data/mylibsvm#dtrain.cache')

这里filename = './data/engineering_data/mylibsvm'，cachepre

最低0.47元/天解锁文章

夕阳下江堤上的男孩

关注

4
点赞
踩
10

收藏

觉得还不错? 一键收藏
12
评论
xgboost 训练大数据，内存不够 out of memory

如果要训练（测试）的样本很多，达到上百上千万，单机载入不了内存时，可以采用如下方法：1、生成libsvm文件将要处理的数据分批（比如一次读10000行/个样本）读入内存，缺失值填充、特征过程等处理完毕之后，使用sklearn.datasets.dump_svmlight_file()将其转为libsvm数据格式保存到磁盘；libsvm格式也是每行一个样本，所以多...
复制链接

扫一扫

专栏目录

评论 12

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。