1.简介
该部分是代码整理的第二部分,为了方便一些初学者调试代码,作者已将该部分代码打包成一个工程文件,包含简单的数据处理、xgboost配置、五折交叉训练和模型特征重要性打印四个部分。数据处理部分参考:代码整理一,这里只介绍不同的部分。本文主要是介绍一些重点的参数部分,一是方便自己以后再次查询,也希望帮助一些初学者快速的使用该项目,应用到自己的工程或者比赛中。如果只是想要阅读代码,可直接移步到尾部链接。
2. 数据处理
data = pd.concat([train_data, test_data])
cate_feature = ['gender', 'cell_province', 'id_province', 'id_city', 'rate', 'term']
for item in cate_feature:
data[item] = LabelEncoder().fit_transform(data[item])
item_dummies = pd.get_dummies(data[item])
item_dummies.columns = [item + str(i + 1) for i in range(item_dummies.shape[1])]
data = pd.concat([data, item_dummies], axis=1)
data.drop(cate_feature,axis=1,inplace=True)
该部分在lightgbm中只进行了labelEncoder编码处理,然后通过categorical_feature变量处理,在lightgbm中使用了类别特征的最优切分进行了处理,具体详情参考:柯国霖大佬的回答。xgboost中没有对类别特征做处理,这里对其进行了onehot编码处理。而在工程中,如果类别过多,我一般会放弃进行onehot,主要是由于进行onehot会导致特征过于稀疏,运算速度变慢,严重影响模型的迭代速度,并且最终对结果提升很有限,我通常只会进行labelEncod