决策树学习笔记（一）：特征选择

最新推荐文章于 2021-07-01 16:29:14 发布

R3eE9y2OeFcU40

最新推荐文章于 2021-07-01 16:29:14 发布

阅读量507

点赞数

本文链接：https://blog.csdn.net/R3eE9y2OeFcU40/article/details/86581742

版权

本文是决策树学习笔记的第一部分，主要讨论特征选择。文章介绍了决策树作为非线性模型的基础，以及学习决策树的重要性。作者讲解了信息熵、信息增益、增益率和基尼指数等特征选择指标，并指出它们在ID3、C4.5和CART算法中的应用。文章以直观的方式阐述了这些概念，并为后续的决策树算法和剪枝做了铺垫。

摘要由CSDN通过智能技术生成

欢迎关注天善智能，我们是专注于商业智能BI，人工智能AI，大数据分析与挖掘领域的垂直社区，学习，问答、求职一站式搞定！

对商业智能BI、大数据分析挖掘、机器学习，python，R等数据领域感兴趣的同学加微信：tstoutiao，邀请你进入数据爱好者交流群，数据爱好者们都在这儿。

作者：xiaoyu 数据挖掘工程师，数据爱好者

个人公众号：Python数据科学

知乎专栏：https://zhuanlan.zhihu.com/pypcfx

相信很多朋友已经对决策树很熟悉了，决策树是机器学习中的一种基本的可用于分类与回归的方法，它是一些集成学习如GBDT，XGboost等复杂模型的基础。这些高级模型比如XGboost可以非常好地拟合数据，在数据挖掘比赛以及工业界中都有着非常出色的表现，受到了无数爱好者的追捧。

有的朋友可能觉得XGboost很牛逼，上来就要学GBDT，XGboost。我并不建议这么做，我个人对整个树模型的学习过程总结了一个流程：

本篇开始进入树模型系列，从最简单的决策树开始，按照上面这个学习流程，循序渐进，直到复杂模型Xgboost。

▍决策树概述

不同于逻辑回归，决策树属于非线性模型，可以用于分类，也可用于回归。它是一种树形结构，可以认为是if-then规则的集合，是以实例为基础的归纳学习。基本思想是自顶向下，以信息增益（或信息增益比，基尼系数等）为度量构建一颗度量标准下降最快的树，每个内部节点代表一个属性的测试，直到叶子节点处只剩下同一类别的样本。它的决策流程如下所示：