决策树学习笔记(一):特征选择

本文是决策树学习笔记的第一部分,主要讨论特征选择。文章介绍了决策树作为非线性模型的基础,以及学习决策树的重要性。作者讲解了信息熵、信息增益、增益率和基尼指数等特征选择指标,并指出它们在ID3、C4.5和CART算法中的应用。文章以直观的方式阐述了这些概念,并为后续的决策树算法和剪枝做了铺垫。
摘要由CSDN通过智能技术生成
3901436-f308d8699100992b

欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答、求职一站式搞定!

对商业智能BI、大数据分析挖掘、机器学习,python,R等数据领域感兴趣的同学加微信:tstoutiao,邀请你进入数据爱好者交流群,数据爱好者们都在这儿。

作者:xiaoyu  数据挖掘工程师,数据爱好者

个人公众号:Python数据科学

知乎专栏:https://zhuanlan.zhihu.com/pypcfx


相信很多朋友已经对决策树很熟悉了,决策树是机器学习中的一种基本的可用于分类与回归的方法,它是一些集成学习如GBDT,XGboost等复杂模型的基础。这些高级模型比如XGboost可以非常好地拟合数据,在数据挖掘比赛以及工业界中都有着非常出色的表现,受到了无数爱好者的追捧。


有的朋友可能觉得XGboost很牛逼,上来就要学GBDT,XGboost。我并不建议这么做,我个人对整个树模型的学习过程总结了一个流程:

3901436-7745e6b91b28c4e4

本篇开始进入树模型系列,从最简单的决策树开始,按照上面这个学习流程,循序渐进,直到复杂模型Xgboost。


决策树概述


不同于逻辑回归,决策树属于非线性模型,可以用于分类,也可用于回归。它是一种树形结构,可以认为是if-then规则的集合,是以实例为基础的归纳学习。基本思想是自顶向下,以信息增益(或信息增益比,基尼系数等)为度量构建一颗度量标准下降最快的树,每个内部节点代表一个属性的测试,直到叶子节点处只剩下同一类别的样本。它的决策流程如下所示:

3901436-d9c96ac9d9ba1dda

决策树的学习包括三个重要的步骤,特征选择决策树的生成以及决策树的剪枝

特征选择:常用的特征选择有信息增益,信息增益比,基尼系数等。

生成过程:通过计算信息增益或其它指标,选择最佳特征。从根结点开始,递归地产生决策树,不断的选取局部最优的特征,将训练集分割成能够基本正确分类的子集。

剪枝过程:首先定义决策树的评价指标,对于所有的叶子结点

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值