决策树 随机森林 xgboost_决策树和随机森林

本文通过银行审批贷款的场景,对比了决策树和随机森林的区别。决策树是基于特定特征的顺序决策,而随机森林是多个随机创建的决策树的集成,能有效避免过拟合。在实践中,随机森林在样本外评估中的性能优于决策树,尤其适合大数据集。然而,决策树更易解释和训练,适合对可解释性要求高的场景。
摘要由CSDN通过智能技术生成

决策树与随机森林的简单类比

让我们从一个思维实验开始,它将说明决策树和随机森林模型之间的区别。

假设银行必须为客户批准一笔小额贷款,而银行需要迅速做出决定。银行检查此人的信用记录和财务状况,发现他们还没有偿还旧贷款。因此,银行拒绝了申请。

但问题是,对于银行庞大的金库来说,贷款数额非常小,他们本可以在非常低风险的情况下批准贷款。因此,银行失去了赚钱的机会。

现在,又一个贷款申请将在几天内完成,但这一次银行提出了一个不同的策略——多个决策过程。有时它先检查信用记录,有时它先检查客户的财务状况和贷款金额。然后,银行结合这些多个决策过程的结果,决定向客户发放贷款。

即使这一过程比前一个过程花费更多的时间,银行也可以利用这一方法获利。这是一个典型的例子,集体决策优于单一决策过程。现在,你知道这两个过程代表了什么吧?

e2f7393d9166690a5067fd81dd9fd44a.png

这些分别代表决策树和随机森林!我们将在这里详细探讨这个想法,深入探讨这两种方法之间的主要区别,并回答关键问题,你应该使用哪种算法?

目录

  1. 决策树简介
  2. 随机森林简介
  3. 随机森林与决策树的冲突
  4. 为什么随机森林优于决策树?
  5. 决策树与随机森林—你什么时候应该选择哪种算法?

决策树简介

决策树是一种有监督的机器学习算法,可用于分类和回归问题。决策树仅仅是为了达到特定结果而做出的一系列顺序决策。下面是一个正在运行的决策树的示例(使用上面的示例):

8e057e1f14f28808ee3f3a8d6287f3ed.png

让我们了解这棵树是如何工作的。

首先,它检查客户是否有良好的信用记录。在此基础上,将客户分为信用记录良好的客户和信用记录不良的客户两类。然后,它检查客户的收入,并再次将他/她分为两组。最后,它检查客户要求的贷款金额。根据检查这三个特征的结果,决策树决定是否应该批准客户的贷款。

特征/属性和条件可以根据数据和问题的复杂性而改变,但总体思路保持不变。因此,决策树根据数据中的一组特征/属性(在本例中为信用历史、收入和贷款金额)做出一系列决策。

现在,你可能会想:

为什么决策树首先检查信用评分而不是收入?

这被称为特征的重要性,要检查的属性序列是根据基尼系数或信息增益等标准确定的。对这些概念的解释超出了本文的讨论范围,但你可以参考以下任一资源来了解有关决策树的所有信息:

注:本文的思想是比较决策树和随机森林。因此,我不会详细介绍基本概念。

随机森林简介

决策树算法易于理解和解释。但通常,一棵树不足以产生有效的结果。这就引入随机森林的概念。</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值