一、决策树
决策树是一种基于特征判断类别的树结构,可以表示为if...else...then的形式,也可以表示为在特征空间下的类别空间的条件概率。
常见决策树算法有:ID3、C4.5/C5.0、CART
决策树训练过程:分裂特征选择、树的生成、树的剪枝
分裂特征选择:
信息增益:
信息增益比:
基尼指数:
算法 | 适用场景 | 数据要求 | 过程1:分类特征选择 | 过程2:树的生成 | 过程3:树的剪枝 | 优缺点 | 特征使用次数 |
ID3 | 分类 | 分类型变量 | 信息增益 | 多叉树 | 没有剪枝 | 1.使用信息增益容易倾向于选择取值多的特征,如ID等 2.没有考虑缺失值 | 因为是多叉树最多使用一次 |
C4.5 | 分类 | 分类型、数值型变量 | 信息增益率 | 多叉树 | 悲观剪枝(后剪枝) | 1.计算时间长 | 因为是多叉树最多使用一次(连续型特征也只会用一次) |
CART | 分类、回归 | 分类型、数值型变量 | 基尼指数 | 二叉树 | 代价复杂度减枝 | 因为是二叉树可能使用多次 |
实战案例:
二、逻辑回归
三、K近邻(KNN)
四、朴素贝叶斯
五、支持向量机(SVM)
六、集成学习算法
七、分类模型常见问题及解决方法
7.1 样本不平衡
7.2 缺失值
7.3 特征类型