XGBOOST 进行稀疏数据的处理

最新推荐文章于 2022-10-23 13:50:55 发布

erinapple

最新推荐文章于 2022-10-23 13:50:55 发布

阅读量7.5k

点赞数

分类专栏：推荐系统

本文链接：https://blog.csdn.net/erinapple/article/details/81149507

版权

推荐系统专栏收录该内容

25 篇文章 0 订阅

订阅专栏

xgboost进行稀疏数据的处理

当数据及其稀疏的时候，不应该转换为numpy等形式，尤其是点击数据。

商品成千上万，用户点击商品的种类只是其中的某一些类型，但是以此建立起来的点击矩阵的纬度却是庞大而冗余

解决方式1：

将数据转化为libsvm存储的形式，数据的第一列是label, 第二列之后的是特征

label key1:value1 key2:value2 key3:value3

XGBoost可以加载libsvm格式的文本数据，加载的数据格式可以为Numpy的二维数组和XGBoost的二进制的缓存文件。加载的数据存储在对象DMatrix中。

加载libsvm格式的数据和二进制的缓存文件时可以使用如下方式

dtrain = xgb.DMatrix('train.svm.txt')
dtest = xgb.DMatrix('test.svm.buffer')

直接将数据导入即可

解决方式2：

加载numpy的数组到DMatrix对象时，可以用如下方式
这种是通常会使用的方法，直接将数据处理成numpy 的形式，然后进行五折交叉验证，直接调包，通过数组的index处理即可（一般情况，比如样本，字段的情况）

data = np.random.rand(5,10) # 5 entities, each contains 10 features
###生成一个5个样本，特征个数为10的训练集
label = np.random.randint(2, size=5) # binary target
####生成训练集对应的标签
dtrain = xgb.DMatrix( data, label=label)
####
通过标签以及训练数据，生成XGBOOST可以处理的形式

将scipy.sparse格式的数据转化为 DMatrix格式时，可以使用如下方式
将稀疏数据如此表示，只表示其中有值的点，将数据表示成三元组，需要行，列，value值，然后将数据放入

csr = scipy.sparse.csr_matrix( (dat, (row,col)) )
dtrain = xgb.DMatrix( csr )

erinapple

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录