机器学习之基于xgboost的特征筛选

最新推荐文章于 2025-04-10 13:37:16 发布

语亦情非

最新推荐文章于 2025-04-10 13:37:16 发布

阅读量4.4k

点赞数 1

分类专栏：机器学习数据挖掘面试

本文链接：https://blog.csdn.net/a1272899331/article/details/104958532

版权

本文主要是基于xgboost进行特征选择，很多人都知道在后面的模型选择时，xgboost模型是一个非常热门的模型。但其实在前面特征选择部分，基于xgboost进行特征筛选也大有可为。

#coding=utf-8

import pandas as pd
import xgboost as xgb
import os,random,pickle


os.mkdir('featurescore')



train = pd.read_csv('../../data/train/train_x_rank.csv')
train_target = pd.read_csv('../../data/train/train_master.csv',encoding='gb18030')[['Idx','target']]
train = pd.merge(train,train_target,on='Idx')
train_y = train.target
train_x = train.drop(['Idx','target'],axis=1)
dtrain = xgb.DMatrix(train_x, label=train_y)

test = pd.read_csv('../../data/test/test_x_rank.csv')
test_Idx = test.Idx
test = test.drop('Idx',axis=1)
dtest = xgb.DMatrix(test)


train_test = pd.concat([train,test])
train_test.to_csv('rank_feature.csv',index=None)
print print(train_test.shap