对于类别特征,需要进行数值化,无论是字符量还是连续的数字量,最好用 onehot
对于一些 tree 模型,不用 onehot,如 lightgbm
可以使用 pandas 完成 onehot 操作
data = pd.get_dummies(data, columns=['model', 'brand', 'bodyType', 'fuelType',
'gearbox', 'notRepairedDamage', 'power_bin'])
参考: https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12586969.1002.6.1cd8593adJtg6P&postId=95501