决策树算法与不同的剪枝方法

本文介绍了决策树的基本原理,包括信息熵、ID3、C4.5和CART算法的工作方式,并详细讨论了决策树的剪枝方法,如后剪枝和预剪枝,以提高泛化能力。
摘要由CSDN通过智能技术生成

1 问题引

夏天快要过去,在酷热难耐的夏天,很多人都会选择在街边买几个西瓜回去解渴,有经验的长辈可以根据瓜的色泽、敲声、根蒂挑选出熟了的西瓜。那么我们是否可以根据长辈的经验总结出一套规则,建立一个完整的系统,自动的分析一个瓜是生瓜还是熟瓜。此时我们就可以使用机器学习算法决策树来构建这么个系统。

2 算法概述

2.1 工作原理

分类决策树模型是一种描述对实例进行分类的树形结构,决策树可以被看做是一个if-then的集合,或是一个专家系统。通过对每一个特征进行判断,从根节点到达叶节点,得到新数据的分类。

2.2 三要素

模型:决策模型

策略:正则化的极大似然估计

算法:特征选择、生成树、多数表决、剪枝

2.3决策树的构造

有了思想,现在我们想构建一个决策树。每条数据可能会有很多个特征,那么可以构建的决策树就有很多种可能,我们如何选择特征才能使得我们的决策树更有效率、更准确呢?这里用到信息论的原理。

2.3.1 ID3算法

实际上,我们选择特征的目标是为了使切分后的数据集有更多的信息增益。在信息论中,熵是表示随机变量不确定性的度量。在高中物理中我们学到过熵,其意义是体系混乱程度的度量,熵越大越混乱,在这里熵越大意味着不确定性越大,反过来说,熵越小,不确定性越小,即信息增益越大。特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差࿰

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值