- 学习知识点概要
1. 什么是XGBoost
2. 如何用XGBoost实现分类
- 学习内容
1.XGBoost
对GBDT算法的整合包,并行运行决策树,鲁棒性强
XGBoost的主要缺点:
- 相对于深度学习模型无法对时空位置建模,不能很好地捕获图像、语音、文本等高维数据。
- 在拥有海量训练数据,并能找到合适的深度学习模型时,深度学习的精度可以遥遥领先XGBoost。
这里特别注意其在特征工程中也有很大作用
2.分类
填补缺失值
对离散变量编码[0,len(X)-1],这里将地区转化为数字表示
metircs 用到了混淆矩阵,热力图来表示
3.特征筛选
sns.barplot(y=data_features_part.columns, x=clf.feature_importances_)
我们还可以使用XGBoost中的下列重要属性来评估特征的重要性。
- weight:是以特征用到的次数来评价
- gain:当利用特征做划分的时候的评价基尼指数
- cover:利用一个覆盖样本的指标二阶导数(具体原理不清楚有待探究)平均值来划分。
- total_gain:总基尼指数
- total_cover:总覆盖
4.参数选择
XGBoost中包括