- XgBoost和Random Forest,不能直接处理categorical feature,必须先编码成为numerical feature。
- lightgbm和CatBoost,可以直接处理categorical feature。
- lightgbm: 需要先做label encoding。用特定算法(On Grouping for Maximum Homogeneity)找到optimal split,效果优于ONE。也可以选择采用one-hot encoding。Features – LightGBM documentation
- CatBoost: 不需要先做label encoding。可以选择采用one-hot encoding,target encoding (with regularization)。CatBoost — Transforming categorical features to numerical features — Yandex Technologies
几个 gbdt library对categorical feature的处理
最新推荐文章于 2022-04-20 15:38:03 发布