决策树算法简介

最新推荐文章于 2022-05-22 16:48:01 发布

L60522

最新推荐文章于 2022-05-22 16:48:01 发布

阅读量558

点赞数

分类专栏：机器学习，决策树算法简介文章标签：机器学习决策树算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/l60522/article/details/78636711

版权

机器学习，决策树算法简介专栏收录该内容

1 篇文章 0 订阅

订阅专栏

决策树（decision tree）

一、背景知识

符号xi的信息量：

L(xi) = - log2p(xi)

熵：

H = - ∑p(xi)log2p(xi)

信息增益：

特征A对训练数据集D的信息增益g(D,A) = H(D) - H(D|A)

其中，定义集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差

二、优缺点及适用数据类型

优点：计算复杂度不高，输出结果易于理解，对中间值的缺失不敏感，可以处理不相关特征数据。

缺点：可能产生过度匹配问题，连续变量处理效果不好。

适用数据类型：数值型和标称型。

三、基本算法——ID3算法

决策树类似于流程图的树结构：

每个内部节点表示在一个属性上的测试

每个分支表示一个属性输出

树叶节点表示类或类分布

树的最顶层是根节点

算法：

寻找划分数据集的最好特征，划分数据集，创建分支点

对于划分的子集，递归上步

递归终止条件：所有子项属同一类或用完所有特征（使用多数表决分类）

四、优化

构造决策树很耗时：

→将分类器存储在硬盘上，使用Python中的pickle模块

处理连续性变量的属性：

→离散化

避免overfitting：

→先剪枝、后剪枝

五、算法比较

C4.5（gain ratio）

CART（gain index）

ID3（信息增益）

异：属性选择度量方法不同

同：都是贪心算法，自上而下

六、实现代码地址

https://code.csdn.net/snippets/2602934.git

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。