Catboost面试题
1. 简单介绍Catboost?
CatBoost是一种以对称决策树 为基学习器的GBDT框架,主要为例合理地处理类别型特征,CatBoost是由Categorical和Boosting组成。CatBoost还解决了梯度偏差以及预测偏移的问题,从而减少过拟合的发生,进而提高算法的准确性和泛化能力。
2. 相比于XGBoost、LightGBM,CatBoost的创新点有哪些?
- 自动将类别型特征处理为数值型特征。
- Catboost对类别特征进行组合,极大的丰富了特征维度。
- 采用排序提升的方法对抗训练集中的噪声点,从而避免梯度估计的偏差,进而解决预测偏移的问题。
- 采用了完全对称树作为基模型。
3. Catboost是如何处理类别特征的?
-
基数比较低的类别型特征
利用One-hot编码方法将特征转为数值型
-
基数比较高的类别型特征
- 首先会计算一些数据的statistics。计算某个category出现的频率,加上超参数,生成新的numerical