第四个项目比较简单和有趣,因为它的数据集全部都是分类型特征,在这种情况下,我们又应该怎么做呢。在这里给大家分享一个比较好用的模型catboost和对分类型特征处理的编码方式TargetEncoder。在这个项目中可以方便快捷的对数据进行处理和建模。
Part1.数据导入
import numpy as np
import pandas as pd
import os
from sklearn.exceptions import ConvergenceWarning
import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)
warnings.simplefilter(action='ignore', category=ConvergenceWarning)
train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')
# separate target, remove id and target
test_ids = test['id']
target = train['target']
train.drop(columns=['id', 'target'], inplace=True)
test.drop