笔记：机器学习之决策树

最新推荐文章于 2022-05-01 16:11:08 发布

guangguyu

最新推荐文章于 2022-05-01 16:11:08 发布

阅读量481

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/guangguyu/article/details/81174580

版权

本文详细介绍了决策树的学习过程，包括决策树概述、构建决策树的步骤（特征选择、生成决策树、剪枝）、如何用决策树预测鸢尾花的分类。通过实例展示了信息熵、信息增益、增益率、基尼系数等概念，以及预剪枝和后剪枝策略，以提升决策树的泛化性能。

摘要由CSDN通过智能技术生成

目录

决策树概述

决策树的构建

生成决策树

生成决策树

用决策树对鸢尾花的预测

决策树概述

决策树（decision tree）是功能强大的且非常好用的的分类和预测方法，它是一种有监督的学习算法。以树状图为基础，故称为决策树。这里以分类为主题。对于离散值，决策树中的每一个非叶节点都是数据的一个特征，叶节点是数据的分类，决策树从根节点沿着不同的特征分支最终到达叶节点。

决策树的构建

决策树的构建主要分为3大步骤

特征选择
生成决策树
剪枝

特征选择

特征选择就是选取有较强分类能力的特征，其评判标准主要有信息增益、信息增益率和基尼系数来判定。

熵

熵是度量数据纯度最常用的一种指标。假设，样本集合D中的第k类样本的概率是 ${p_k{}^{}}(k=1,2,3...|y|)$ ,则D的信息熵为

$E(D)=-\sum_{k=1}^{|y|}{p_klog_2}p_k$

E(D) 值越小则数据纯度越高

条件熵

E(D∣A)

表示在给定特征A的条件下，D的条件熵

$E(D|A)=\sum_{i=1}^{n}P_A(A=a_i)E(D|A=a_i)$

其中

$P_A(A=a_i)=\sum_{D}^{ }P(A=a_i,D)$

信息增益

信息增益表示：已知集合D的经验熵E(D)，给定特征A下D的经验条件熵为E(D∣A)的差

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。