gini系数 决策树_机器学习——Decision Trees 决策树

本文介绍了决策树的基本概念,包括熵、信息增益和Gini指数,以及如何利用它们选择最佳分裂特征。讨论了ID3、C4.5和CART算法的区别,并探讨了决策树的优势和缺点,如易过拟合、不稳定性和对数据不平衡的敏感性。同时,提到了剪枝策略和sklearn库中的决策树实现。
摘要由CSDN通过智能技术生成

Decision Trees 决策树

Created: Apr 14, 2020 5:28 PM

什么是决策树?

决策树以树的结构形式来构建分类或者回归模型。树的决策从根(开始)到叶节点。决策树易于过度拟合,可以使用剪枝来简化模型。

假如我们要编写一个APP 推荐引擎,我们的任务是根据现有的数据,向人们推荐他们最有可能下载的APP,左边的表格是六个人的数据,性别、职业、和他们下载的APP。

我们可以建立下图右边的这样一棵树,先建立一个职业节点,如果是学生那么就推荐Pokemon Go,如果是工作,再创建一个性别的节点,女生推荐whatapp,男生推荐snapchat

c59cc3e40a589c304c618fc2bf54c51a.png

另外一个例子是根据考生成绩和平时的成绩来判断学生是否被录取,我们可以用同样的方法来建立一棵树。

4197157cf7981eacdebfe4e676484b4a.png

树构建算法 Tree construction algorithms

  • ID3 用于分类
  • C4.5 同于分类
  • C5.0 与C4.5相比,内存更少,构建的规则集更小,同时更加准确。
  • CART (Classification and Regression Trees)可以用于分类和回归

共同点:都是贪心算法,自上而下(Top-down approach)

区别:属性选择度量方法不同: C4.5 (gain ratio), CART(gini index), ID3 (Information Gain)

Entropy 熵

熵是一个物理学概念,如果系统中的粒子有许多可能移动的位置,则系统具有很高的熵,如果系统是刚性,粒子活动低,则系统具有较低的熵。

例如,处于固态、液态、和气态的水具有不同的熵,冰中的分子必须保留在晶格中刚性系统,因此冰的熵低。 水中的分子具有更多的运动位置,因此液态水具有中等

熵。 水蒸气中的分子几乎可以到达所需的任何位置,因此水蒸气具有很高的熵

388727c189f08677bba84e8f61301827.png
  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值