经典算法（三）：决策树

最新推荐文章于 2024-08-04 21:08:26 发布

置顶

wyh_wen

最新推荐文章于 2024-08-04 21:08:26 发布

阅读量824

点赞数

分类专栏：数据分析机器学习基础算法文章标签：机器学习经典算法数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42370261/article/details/86658395

版权

本文详细介绍了决策树的概念、特征选择、生成过程，包括ID3、C4.5和CART算法，并探讨了决策树的剪枝策略，如预剪枝和后剪枝，以及如何处理连续特征和缺失值。决策树是一种广泛应用于机器学习和数据分析的经典算法，既能解决分类问题，也能处理回归问题。

摘要由CSDN通过智能技术生成

一、决策树概念

在经典算法中，决策树是常用的算法之一。前面提到的线性回归可以解决回归问题，逻辑回归可以解决分类问题，而今天要学习的决策树不但可以回归问题，还可以解决分类问题。顾名思义，决策树分为两种树，回归树和分类树。在分类算法中，决策树是根基。现在常用的随机森林也是基于多个决策树集成的算法。从名称可以看出，决策树是含有分叉的树状算法。决策树思想是寻找最纯净的划分方法，每一步都寻找一个最优的特征进行划分。决策树简单图示：

根结点：它没有入边，但有零条或多条出边。

内部结点：恰有一条入边和两条或者多条出边。

叶结点：恰有一条入边，但没有出边。

父结点和子结点：一条有向边连接的两个结点，出边的结点是入边结点的父结点，而后者称为子结点。

二、特征选择

简单了解决策树的框架后，需要知道常见的几个概念。

1.误差率、熵、Gini指数

计算样本集合纯度的有三种方式，分别是误差率、熵和Gini指数。

误差率

其中i表示该类别中个数多的特征的个数，t表示该类别观测值数

熵

Gini指数

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。