阶段概述:
本阶段讲解,决策树算法、随机森林算法、Adaboost 算法、GBDT 算法、XGBoost 算法
达成目标:
通过本阶段学习,掌握非线性决策树系列算法,重点掌握 Kaggle 神奇 XGBoost 算法,理 解 GBDT 和 XGBoost 涉及的公式推导,本阶段的掌握将大大提升学员数据挖掘的能力,对 于后续理解 Kaggle 实战阶段内容会起到很大的帮助。
实战教学项目:
- 通过 graphvis 绘制决策树模型
- 用户画像集成学习方法案例
- Adaboost 算法做人脸识别
- GBDT+LR 架构代码实现
决策树算法
- 决策树的算法原理与数学表达
- 分裂指标 Gini 系数、信息增益、信息增益率
- 前剪枝与后剪枝
- 决策树 ID3、C4.5 和 CART
- 决策树算法优略比较
- 决策树之鸢尾花数据集分类案例
- 通过 graphvis 绘制决策树模型
随机森林算法
- 集成学习算法思想 Bagging、Boosting、Stacking
- 用户画像集成学习方法案例
- OOB 数据集验证随机森林算法
- 随机森林副产品之特征选择
Adaboost 算法
- Adaboost 算法原理
- 数据的权重与权重错误率
- 权重错误率调整到 0.5 训练下一个弱分类器
- 计算每个样本的权重 Un
- 应用 Adaboost 算法做人脸识别
GBDT 算法
- 函数空间的梯度下降与负梯度
- 推导 GBDT 回归是拟合残差
- Shrinkage 衰减系数的作用
- 推导 GBDT 分类亦是拟合残差
- GBDT 二分类模型训练和使用
- GBDT 多分类模型训练和使用
- GBDT 副产品之特征组合用于降维
- 实现 GBDT+LR 架构代码实战
XGBoost 算法
- XGBoost 算法与决策树集成学习关系
- XGBoost 目标函数与正则项
- XGBoost 目标函数用二阶泰勒展开
- 推导简化 XGBoost 目标函数引入 g h
- XGBoost 目标函数加入树的复杂度
- 推导出 XGBoost 目标函数最终形式和叶子节点表达式
- 详解 XGBoost 算法参数与交叉验证
- XGBoost 算法调用 GPU 显卡资源加速