初级算法梳理--决策树

最新推荐文章于 2019-08-08 17:12:27 发布

l422380631

最新推荐文章于 2019-08-08 17:12:27 发布

阅读量117

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/l422380631/article/details/89000788

版权

python 专栏收录该内容

16 篇文章 0 订阅

订阅专栏

学习内容：

1. 信息论基础（熵联合熵条件熵信息增益基尼不纯度）

2.决策树的不同分类算法（ID3算法、C4.5、CART分类树）的原理及应用场景

3. 回归树原理

4. 决策树防止过拟合手段

5. 模型评估

6. sklearn参数详解，Python绘制决策树

1、信息论基础

1.1 熵

信息的定义为，如果待分类的事务可能划分在多个分类之中，则符号 $\large x_{i}$ 的信息定义为：

$\large l(x_{i})=-logp(x_{i})$ ，底数为2，其中 $\large p(x_{i})$ 是选择该分类的概率。

熵定义为信息的期望值，需要计算所有类别所有可能值包含的信息期望值：

1.2 联合熵

没看懂

1.3 条件熵

$\large H(X,Y)-H(X)=-\sum_{x,y} p(x,y)lnp(y|x)$

1.4 信息增益

在划分数据集之前之后信息发生的变化，称为信息增益。

1.5 基尼不纯度

从一个数据集中随机选取子项，度量其被错误分类到其它分组里的概率。

2、决策树的不同分类算法

算法	原理	应用场景
ID3算法	使用信息增益生成决策树	分类
C4.5	使用信息增益比生成决策树	分类、连续值与缺失值处理
CART分类树	基尼指数	既可用于分类也可用于回归

3、回归树原理

4、决策树防止过拟合手段

剪枝，降低复杂度，解决过拟合

5、模型评估

分类准确率

6、sklearn参数详解

基于默认的方法：

criterion 用来分裂节点的指标，默认为‘gini’，即基尼指数
splitter 拆分策略，一般都默认‘best’

max_depth 最大深度

min_samples_split 对于中间节点分裂的最少样本数

min_samples_leaf 叶子节点的最少样本数

max_features 最大特征数目

min_weight_fraction_leaf 叶子节点站的比重

一般而言深度与叶子节点数量是互斥控制的。

7、python绘制决策树

l422380631

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
初级算法梳理--决策树

学习内容：1. 信息论基础（熵联合熵条件熵信息增益基尼不纯度）2.决策树的不同分类算法（ID3算法、C4.5、CART分类树）的原理及应用场景3. 回归树原理4. 决策树防止过拟合手段5. 模型评估6. sklearn参数详解，Python绘制决策树1、信息论基础1.1 熵信息的定义为，如果待分类的事务可能划分在多个分类之中，则符号的信息定义为：...
复制链接

扫一扫

专栏目录