统计学习方法笔记（五）

最新推荐文章于 2023-03-09 22:01:42 发布

HINJ

最新推荐文章于 2023-03-09 22:01:42 发布

阅读量147

点赞数

分类专栏：统计学习方法笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kongshaohao/article/details/107103817

版权

统计学习方法笔记专栏收录该内容

10 篇文章 0 订阅

订阅专栏

统计学习方法笔记（五）：决策树

定义

分类决策树模型是一种描述对实例进行分类的树形结构。决策树由节点和有向边组成。节点有内部节点（内部节点表示一个特征或属性，叶节点表示一个类）和叶节点组成
学习时，利用训练数据，根据损失函数最小化的原则建立决策树模型
决策树的路径或者说其对应的if-then规则集合具有一个重要的性质：互斥并且完备（每一个实例都被一条路径或一条规则所覆盖，而且只被一条路径或一条规则所覆盖。）

决策树的学习

决策树学习的本质是从训练数据集中归纳出一组分类规则
其损失函数通常是正则化的极大似然函数，学习问题变成了在损失函数意义下选择最优决策树的问题，这是NP完全问题，所以现实中学习算法通常采用启发式方法，近似求解这一最优问题
决策树学习的3个步骤：特征选择、决策树的生成、决策树的修剪

特征选择

特征选择问题

特征选择是决定用哪个特征来划分特征空间
选择的特征要能够一下子就能够将集合划分开（如一下子分成了9：1），目的是尽量避免选择一些让集合划分为55开的特征，也即是选择信息增益最大的特征，即选择不确定性减少最多的特征。
计算信息增益算法

决策树的生成

ID3算法：从根节点开始，对节点计算所有可能的特征的信息增益，选择信息增益最大的特征作为节点的特征，由该特征的不同取值建立子节点；再对子节点递归的调用以上方法，构建决策树；直到所有特征的信息增益均很小或没有特征可以选择为止。相当于用极大似然法进行概率模型的选择。（由于只有树的生成，该算法生成的树容易过拟合）
C4.5算法：和ID3算法相似，只改成了用信息增益比来选择特征

决策树的剪枝

过拟合的原因在于学习时过多地考虑了如何提高训练数据的正确分类，从而构建出过于复杂的决策树。

回归树

决策树思想不仅能够应用于分类问题，还能够应用于回归拟合问题

总结

在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。