GBDT模型用于评分卡模型
本文主要总结以下内容:
- GBDT模型基本理论介绍
- GBDT模型如何调参数
- GBDT模型对样本违约概率进行估计(GBDT模型用于评分卡python代码实现请看下一篇博客)
- GBDT模型挑选变量重要性
- GBDT模型如何进行变量的衍生
GBDT模型基本理论介绍
GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力较强的算法。GBDT中的树是回归树(不是分类树),GBDT用来做回归预测,调整后也可以用于分类。
GBDT模型是集成学习框架Boosting的一种
一句话解释版本:
Bagging是决策树的改进版本,通过拟合很多决策树来实现降低方差
随机森林(Random Forrest)是Bagging的改进版本,通过限制节点可选特征范围优化Bagging
Boosting是Bagging的改进版本,通过吸取之前树的经验建立后续树优化Bagging
Boosting模型工作原理
- GBDT模型的原理
Y标签类别可以是(连续型[基模型:回归]、离散无序型[基模型:分类]、离散有序型[基模型:排序])
不同的Y标签类型选择不一样的损失函数,上式中损失函数L(F(X),Y),其中Y是固定的,F(X)的针对不同问题,函数结构也是可以定下来的,唯一要确定的是函数所对应的参数使得该损失函数最小,所以我们把问题从函数空间搜索问题转换为参数空间搜索问题
- 常见的损失函数(针对不同Y标签类型选择不一样的损失函数)
Y标签类别可以是(连续型[基模型:回归]、离散无序型[基模型:分类]、离散有序型[基模型:排序])
下面三个分别对应:回归型损失函数、分类型损失函数、逻辑回归损失函数(当然了这里只是举了常见的三个,比如回归型损失函数我们也可以使用均方差等损失函数,这里不过多去展开)