机器学习之决策树

本文介绍了决策树在机器学习中的应用,通过一个生动的例子展示了决策树如何进行决策。接着阐述了算法原理,包括如何选择特征作为决策条件,以及信息增熵、信息增益在决策树构建中的作用。此外,讨论了决策树的优缺点,如直观易解释、预测速度快,但易过拟合。文章还提到了不同版本的决策树,如ID3、C4.5和CART,并介绍了剪枝方法以防止过拟合。最后,文章简要介绍了信息增益率和基尼系数作为改进的信息度量方法。
摘要由CSDN通过智能技术生成

机器学习之决策树

今天是分类算法的第二课时,我们今天要介绍的是一个应用非常广泛的模型——决策树。首先我依然会从一个例子出发,看看女神是怎样决策要不要约会的;然后分析它的算法原理、思路形成的过程;由于决策树非常有价值,还衍生出了很多高级版本,在扩展内容里我也进行了简要的介绍。希望通过本课时的学习,你可以掌握决策树的思路以及使用方法,并能够尝试用它来解决遇到的问题

在这里插入图片描述

一共例子

我们都知道女神身后有很多的追求者,她肯定不会和每个人都约会,因为时间不够,必须要好好管理自己的时间才行。于是女神给每个想要约会的人发信息说:“把你的简历发过来吧。”

简历收上来后,第一眼先看照片,颜值打几分?然后再看年收入,长得帅的就可以少挣点,毕竟 “帅也可以当饭吃啊”。不帅的呢?那收入必须要求高一点,“颜值不够,薪资来凑”。薪资还差点的,再看看学历是不是研究生 / 985/211,看看身高有没有 180…… 所以你就可以对号入座了,发现自己哪条都不符合,好了,去好好“搬砖” 吧。

由此可知,女神的筛选条件有颜值、身高、收入、学历等,每一项都会对最后是否约会的结果产生影响,即女神通过对这几种条件的判断,决定是否要安排约会。

上面这个过程就是决策树的思路,下面我们来看一下决策树的具体原理。

算法原理

在已知的条件中,选取一个条件作为树根,也就是作为第一个决策条件,比如 “颜值” 分为帅和不帅两个结果,然后再看是否还需要其他判断条件。如果需要的话,继续构建一个分支来判断第二个条件,以此类推,直到能够推出一个结果,这个分支就结束了。

同样的,当我们把所有样本数据中出现的情况组合都构建入这棵树的时候,我们的算法也就完成了对样本的学习。最终形成的这棵树上,所有的叶子节点都是要输出的类别信息,所有的非叶子节点都是特征信息。当一个新的数据来了之后,就按照对应的判断条件,从根节点走到叶子节点,从而获得这个数据的分类结果。

比如,我帮女神收集了几份简历,然后按照条件整理出如下结果 :

编号 颜值 年收入 身高 学历
1 28 w 178 cm 本科
2 不帅 100 w 176 cm 硕士
3 不帅 40 w 185 cm 硕士
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值