《数据分析实战》总结二之分类算法：决策树，朴素贝叶斯，SVM，KNN，Adaboost

最新推荐文章于 2024-06-21 23:13:02 发布

木棉上的光

最新推荐文章于 2024-06-21 23:13:02 发布

阅读量3.6k

点赞数 2

分类专栏：数据挖掘文章标签：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41594698/article/details/102768627

版权

本文详细介绍了几种常用的分类算法，包括决策树的构造、剪枝、CART算法，朴素贝叶斯的原理和工作流程，SVM的支持向量机概念，KNN的最近邻分类方法，以及AdaBoost的自适应提升算法。通过对这些算法的理解，有助于提升数据分析和机器学习的实战能力。

摘要由CSDN通过智能技术生成

1 决策树

1.1 工作原理

把以前的经验总结出来，最后得到结果

比如打篮球，一般会根据“天气”、“温度”、“湿度”、“刮风”这几个条件来判断，最后得到结果：去打篮球？还是不去？
在这里插入图片描述
在做决策树的时候，会经历两个阶段：构造和剪枝。

1.2 构造

构造就是通过选择什么属性作为节点来生成一棵完整的决策树

节点类型：

根节点：就是树的最顶端，最开始的那个节点。在上图中，“天气”就是一个根节点；

内部节点：就是树中间的那些节点，比如说“温度”、“湿度”、“刮风”；

叶节点：就是树最底部的节点，也就是决策结果。

需要解决三个重要问题：

选择哪个属性作为根节点；

选择哪些属性作为子节点；

什么时候停止并得到目标状态，即叶节点。

纯度：可以把决策树的构造过程理解成为寻找纯净划分的过程。数学上可以用纯度来表示，纯度换一种方式来解释就是让目标变量的分歧最小。

信息熵：表示了信息的不确定度，其计算公式为：
在这里插入图片描述
p(i|t) 代表了节点 t 为分类 i 的概率，其中 log2 为取以 2 为底的对数。
它能帮我们反映出来这个信息的不确定度。当不确定性越大时，它所包含的信息量也就越大，信息熵也就越高。

信息熵越大，纯度越低。
当集合中的所有样本均匀混合时，信息熵最大，纯度最低。

在构造决策树的时候，会基于纯度来构建。而经典的 “不纯度”的指标有三种，分别是：
信息增益（ID3 算法）、信息增益率（C4.5 算法）以及基尼指数（Cart 算法）。

ID3 算法计算的是信息增益：划分可以带来纯度的提高，信息熵的下降。
在这里插入图片描述
C4.5改进了ID3算法：

采用信息增益率

采用悲观剪枝

离散化处理连续属性

处理缺失值

CART请见下一节

1.3 剪枝

剪枝就是给决策树瘦身。

目的：不需要太多的判断，同样可以得到不错的结果。之所以这么做，是为了防止“过拟合”（Overfitting）现象的发生。

过拟合：指的就是模型的训练结果“太好了”，以至于在实际应用的过程中，会存在“死板”的情况，导致分类错误。

造成过拟合的原因：训练集中样本量较小

泛化能力：分类器通过训练集抽象出来的分类能力；
如果太依赖于训练集的数据，那么得到的决策树容错率就会比较低，泛化能力差；
因为训练集只是全部数据的抽样，并不能体现全部数据的特点；
如果决策树选择的属性过多，构造出来的决策树一定能够“完美”地把训练集中的样本分类，但是这样就会把训练集中一些数据的特点当成所有数据的特点，但这个特点不一定是全部数据的特点，这就使得这个决策树在真实的数据分类中出现错误，也就是模型的“泛化能力”差。

剪枝的方法：预剪树和后剪枝：

预剪枝是在决策树构造时就进行剪枝。
方法是：在构造的过程中对节点进行评估，如果对某个节点进行划分，在验证集中不能带来准确性的提升，

最低0.47元/天解锁文章

木棉上的光

关注

2
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
《数据分析实战》总结二之分类算法：决策树，朴素贝叶斯，SVM，KNN，Adaboost

1 决策树1.1 工作原理把以前的经验总结出来，最后得到结果比如打篮球，一般会根据“天气”、“温度”、“湿度”、“刮风”这几个条件来判断，最后得到结果：去打篮球？还是不去？在做决策树的时候，会经历两个阶段：构造和剪枝。1.2 构造构造就是通过选择什么属性作为节点来生成一棵完整的决策树节点类型：根节点：就是树的最顶端，最开始的那个节点。在上图中，“天气”就是一个根节点；内部节...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。