机器学习之决策树学习笔记

最新推荐文章于 2024-08-10 00:35:27 发布

小猫奇点

最新推荐文章于 2024-08-10 00:35:27 发布

阅读量1.2k

点赞数 1

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sophiezjz/article/details/80280486

版权

本文深入探讨了决策树的学习目标、模型构成、决策策略和算法，包括信息增益、ID3、C4.5、CART等。同时，介绍了决策树的剪枝、交叉验证、Bagging和Boosting等优化方法，以及其在分类和预测中的应用、优缺点和适用场景。

摘要由CSDN通过智能技术生成

一、决策树学习的目标

根据给定的训练数据集，归纳出一组分类规则，构建决策树模型，使得模型能对实例进行正确划分。

二、决策树模型

①决策树模型是基于特征，对实例进行分类的树形结构。

②决策树模型的组成结构有：

1. 结点（node）

结点分为内部结点（internal node）和叶结点（leaf node），每一个内部结点对应着一个特征或属性，每一个叶结点对应着一个类

2. 有向边（directed edge）

下图为一个决策树模型，其中圆圈表示内部结点，矩形表示叶结点，有向线段表示有向边：

③决策树模型可看成是：

1. if-then规则集合

决策树的if-then规则集合是由决策树的根结点到叶结点的每一条路径构建一条规则，路径上内部结点的特征是规则的条件，叶结点的类是规则的结论。

决策树的路径互斥并完备，即每个实例对应着有且仅有一条路径或规则

2.条件概率分布

决策树的条件概率分布是特征空间与类空间上的条件概率分布，即在分类时将结点的类分到条件概率大的一类

三、决策树策略

策略：以损失函数为目标函数的最小化

引入正则化的极大似然函数作为损失函数，以便决策树模型不仅能对训练数据有很好的拟合，而且对未知数据有很好的预测

四、决策树算法

1、决策树学习算法的过程

决策树学习算法的过程为：

递归地选择最优特征；

根据特征对训练数据进行分割；

使得对各个子数据集有一个最好的分类

2、决策树的构建

决策树的构建过程为：

①构建根结点

将所有训练数据都放在根结点

②选择一个最优特征进行分类

a.如果分类后的子集能够被基本正确分类，那就构建叶结点，将子集分配到对应叶结点

b.如果还有子集不能被基本正确分类，那就重复步骤②，直至子集满足条件a或者没有合适的特征

构建的决策树模型可能出现对训练数据有很好的分类能力，但对未知测试数据的分类能力并不好的现象，即过拟合现象。当出现过拟合现象时，需对已生成的决策树自下而上进行剪枝，将树变得更简单，从而使其具有更好的泛化能力。

3、决策树的算法过程

决策树的算法过程包括：特征选择、决策树的生成、决策树的剪枝

决策树的生成只考虑局部最优，而决策树的剪枝则考虑全局最优

①特征选择

特征选择的标准是对训练数据具有分类能力，当利用这个特征进行分类的结果与随机分类的结果没有很大差别，我们说这个特征没有分类能力

特征选择的准则是信息增益和信息增益比：

a.信息增益

熵（entropy）是表示随机变量不确定性的度量，为

其中X是一个取有限个值得离散随机变量

经验熵（cond

最低0.47元/天解锁文章

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。