机器学习经典算法2-决策树

最新推荐文章于 2022-11-17 08:00:00 发布

大胖5566

最新推荐文章于 2022-11-17 08:00:00 发布

阅读量3.2k

点赞数 1

分类专栏：统计分析与数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/moodytong/article/details/9613327

版权

本文介绍了决策树的基本理念，强调其相比knn算法在数据理解上的优势。通过信息增益和熵来构建决策树，并概述了算法的一般流程，包括数据收集、准备、分析、训练、测试和使用。此外，还提到了决策树构造的终止条件和伪代码。

摘要由CSDN通过智能技术生成

一、算法简要

决策树的基本理念就是通过不断的条件筛选，从而得到最后的答案。knn算法最大的缺点就是无法给出数据的内在含义，而决策树则在数据形式非常容易理解，有一定的实际意义。

这里所讲到的决策树非叶子节点的建立是依据信息增益和熵的概念，这个可以自己去查。通过计算按特定属性划分数据集前后发生的熵的变化，选择信息增益最大的特征属性作为分叉节点，从而一步一步进行决策树的构造。

二、算法一般流程

1.收集数据：任意方法和途径

2.准备数据：数据必须离散化

3.分析数据：构造树完成后，检查图形是否符合预测

4.训练算法：决策树的构造

5.测试算法：一般将决策树用于分类，可以用错误率衡量

6.使用算法：决策树可以用于任何监督学习算法

三、算法伪代码

1.判断决策树是否构造完毕，否则执行2，是则执行3。有终止条件：所有的类标签完全相同，返回该类标签即可；使用完了所有的特征，仍然不能将数据集划分成包含唯一类别的分组，此时，返回出现次数较多的类别

2.选择时的信息增益最大的特征作为分叉节点，对分叉节点的每个特定值，调用1

3.决策树构造完毕，对测试数据进行分类

四、代码实现与示例

import matplotlib.pyplot as plt
from math import log
import operator
'''c

最低0.47元/天解锁文章

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

大胖5566 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。