第二章 分类模型-决策树知识点详细总结

机器学习算法系列

第一章 分类模型-逻辑回归知识点详细总结

第二章 分类模型-决策树知识点详细总结
第三章 分类模型-随机森林知识点详细总结
第四章 分类模型-支持向量机SVM知识点详细总结
第五章 关联分析-apriori算法知识点详细总结


目录

机器学习算法系列

前言

一、决策树简介

二、决策树的生成原则

三、信息增益

四、分类条件选择

五、停止规则

六、决策树预剪枝和后剪枝

七、决策树分类模型参数说明

八、决策树优缺点

九、决策树代码


前言

本章节内容主要介绍决策树,包括决策树简介、生成规则、信息增益、决策树分类条件选择、决策树预剪枝和后剪枝、决策树参数说明并附上部分代码、决策树优缺点。


一、决策树简介

决策树是一种树形结构,树内部每个节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶子节点代表一个分类类别。通过训练数据构建决策树,可以对未知数据进行分类。

  • 根节点:最顶层的分类条件
  • 中间节点:中间分类条件
  • 分支:代表每一个条件的输出
  • 叶节点:代表每一个类别

二、决策树的生成原则

数据不断分裂的递归过程,每一次分裂,尽可能让类别一样的数据在树的一边,当树的叶子节点的数据都是一类的时候,则停止分类。这样分类的数据,每个节点两边的数据不同,将相同的数据分类到树的一侧,能将数据分类的更纯粹。减少树的高度和训练决策树的迭代次数。

注意:训练决策树的数据集要离散化,不然有可能造成训练出来的树有些节点的分支特别多,容易造成过拟合

一个合理的决策树可以描述为:决策树的高度相对低而且树的两边能将数据分类的更彻底。

参考链接:https://www.jianshu.com/p/b04e1d9ea6f1

三、信息增益

信息增益:代表熵的变化程度。分类前的信息熵减去分类后的信息熵。

通过对所有分类条件计算信息增益,那么信息增益最大的那个分类条件就是最优的根节点分类条件的选择。

四、分类条件选择

1.信息熵

信息熵是用来量化信息信息量的指标,信息熵越大,则信息越混乱,信息熵越小,则信息越纯粹。熵的定义如下

信息熵公式:

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

柯努力

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值