机器学习——决策树(阅读笔记)

这篇博客详细介绍了决策树的学习,包括如何通过信息增益、增益率和基尼指数选择划分属性,以及剪枝处理的预剪枝和后剪枝策略。此外,还讨论了连续值和缺失值在决策树中的处理方法。
摘要由CSDN通过智能技术生成

机器学习——决策树(阅读笔记)

概述

决策树(decision tree) 也叫判定树。是基于树(一种数据结构)结构进行决策。主要用于分类问题。

目的:通过决策得到一个泛化能力强的树。

基本方式:通过一定手段对训练数据(Training Set)进行学习生成一颗决策树,再用验证集(Validation Set)来验证这棵树的决策能力,中间可能会通过一定方法来修改树的结构来提高树的泛化能力,最终生成相对最优的决策树。

策略:利用数据的属性进行“分而治之”,通过属性的判定,“递归”生成决策树

算法实现
在这里插入图片描述

1.划分——属性选择

如何在众多的属性中选择某一个或者一类属性作为划分结点呢?用什么样的评价标准来判定结点划分的好坏?

评判标准:我们希望通过属性划分后,不同分支的数据集尽可能属于同一类,即:结点的“纯度”y越高越好

如何来判定划分后的纯度的高低呢?现在介绍常用的三种方法来衡量。

1.1 信息增益

信息熵:度量样本集合纯度的指标之一

公式

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值