机器学习 - 决策树

本文介绍了决策树的基本概念,包括信息熵及其在决策树中的应用。文章详细阐述了如何利用信息熵来选择最佳划分特征,并通过实例展示了计算过程。此外,还探讨了决策树的实现技巧,如离散化、正则项、基尼不纯度,以及防止过拟合的剪枝算法。
摘要由CSDN通过智能技术生成

决策树是一种常见的机器学习算法,它的思想十分朴素,类似于我们平时利用选择做决策的过程。

引言

通俗的来理解决策树,比如说下班的时候,我们会根据很多情况来决定我们接下来做什么,比如说像下面这张图这样:

decision tree

这也就引出了我们的问题——人凭借自己的感觉来决定做每个决策的先后顺序,那么计算机是怎么知道什么时候该做什么决策呢?这也就引出了信息熵的概念。

正文

信息熵

1948 年,香农提出了信息熵的概念解决了信息的量化问题【我们今天知道的 1bit 就是信息量化的结果】(如果不知道什么是熵的读者可以戳这里)。信息熵是被用来衡量信息的不确定性的东西,根据常识我们也可以知道,当一个东西不确定性越大的时候,我们想要了解它就要知道更多的信息。信息熵根据定义为如下表达式:

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值