机器学习-决策树算法

最新推荐文章于 2022-03-15 17:11:36 发布

初入小萌新

最新推荐文章于 2022-03-15 17:11:36 发布

阅读量279

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37321741/article/details/82632035

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

机器学习中分类和预测算法的评估：

1.准确率

2.速度

3.强壮性

4.可规模性

5.可解释性

1.什么是决策树/判定树

判定树是一个类似于流程图的树结构：其中，每个内部结点表示在一个属性上的测试，每个分支代表一个属性输出，而每个树叶结点代表类或类分布。树的最顶层是根结点。

2.机器学习中分类方法中的一个重要算法

3.构造决策树的基本算法

3.1熵的概念

一条信息的信息量大小和它的不确定性有直接的关系

变量的不确定性越大，熵也就越大

3.2决策树归纳算法（ID3）

选择属性判断结点

信息获取量：Gain(A)=Info(D)-Infor_A(D)

通过A来作为结点味蕾获取了多少信息

算法的步骤

1.树以代表训练样本的单个结点开始

2.如果样本都在同一个类（拥有相同的y），则该结点变成树叶，并用该类标号

3.如果不是在同一类，则需要继续进行划分，通过信息获取量，找到信息获取量中值最大的作为头结点，继续创建分枝

4.结束的条件

1）给定结点的所有样本属于同一类

2）没有剩余属性来进行下一步划分，这时使用多数表决，将结点转换成树叶，并用样本中的多数类标记它，作为最后的结果

3）分枝

5.创建树叶

4.树剪枝叶（避免overfitting）避免划分的太细导致，在训练集中算法准确，但是在测试集中，有新的变量就导致不准的情况

4.1先剪枝

4.2后剪枝

5.决策树的优点

直观，便于理解，小规模数据集有效

6.决策树的缺点

处理连续变量不好

类别较多时，错误增加的比较快

可规模性一般

初入小萌新

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。