风控数据挖掘方法简介
决策树算法
决策树的生成只考虑局部最优,
决策树的剪枝则考虑全局最优。
从逻辑回归到决策树
决策树总体流程:
- 自根至叶的递归过程
- 在每一个中间节点寻找一个“划分”属性
三种停止条件
- 当前节点的所有样本都属于某类
- 当前属性值为空或所有属性值相当
- 当前节点的样本为空
最佳属性划分依据
- 信息增益:ID3,取值多的属性,信息增益更大,容易得到庞大但浅的树。分类
- 信息增益率:C4.5,消除因特征取值越多,信息增益越大的情况。分类
- 基尼系数:CART,最小化纯度。回归或分类
特征 | ID3 | C4.5 | CART |
---|---|---|---|
树种类 | 非二叉树 | 非二叉树 | 二叉树 |
回归/分类 | 分类 | 分类 | 回归&分类 |
特征利用 | 不重复使用特征 | 不重复使用特征 | 重复使用特征 |
回归树
决策树优点:简单、逻辑清晰、可解释性好
补充
bagging思想
- 有放回的重复抽样。
- 代表的方法:随机森林(行采样,列采样——加权投票)