学习内容:
1. 信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度)
2.决策树的不同分类算法(ID3算法、C4.5、CART分类树)的原理及应用场景
3. 回归树原理
4. 决策树防止过拟合手段
5. 模型评估
6. sklearn参数详解,Python绘制决策树
1、信息论基础
1.1 熵
信息的定义为,如果待分类的事务可能划分在多个分类之中,则符号的信息定义为:
,底数为2,其中是选择该分类的概率。
熵定义为信息的期望值,需要计算所有类别所有可能值包含的信息期望值:
1.2 联合熵
没看懂
1.3 条件熵
1.4 信息增益
在划分数据集之前之后信息发生的变化,称为信息增益。
1.5 基尼不纯度
从一个数据集中随机选取子项,度量其被错误分类到其它分组里的概率。
2、决策树的不同分类算法
算法 | 原理 | 应用场景 |
ID3算法 | 使用信息增益生成决策树 | 分类 |
C4.5 | 使用信息增益比生成决策树 | 分类、连续值与缺失值处理 |
CART分类树 | 基尼指数 | 既可用于分类也可用于回归 |
3、回归树原理
4、决策树防止过拟合手段
剪枝,降低复杂度,解决过拟合
5、模型评估
分类准确率
6、sklearn参数详解
基于默认的方法:
criterion 用来分裂节点的指标,默认为‘gini’,即基尼指数
splitter 拆分策略,一般都默认‘best’
max_depth 最大深度
min_samples_split 对于中间节点分裂的最少样本数
min_samples_leaf 叶子节点的最少样本数
max_features 最大特征数目
min_weight_fraction_leaf 叶子节点站的比重
一般而言 深度与叶子节点数量是互斥控制的。
7、python绘制决策树