笔记:机器学习之决策树

本文详细介绍了决策树的学习过程,包括决策树概述、构建决策树的步骤(特征选择、生成决策树、剪枝)、如何用决策树预测鸢尾花的分类。通过实例展示了信息熵、信息增益、增益率、基尼系数等概念,以及预剪枝和后剪枝策略,以提升决策树的泛化性能。
摘要由CSDN通过智能技术生成

目录

 

决策树概述

决策树的构建

特征选择

生成决策树

剪枝

特征选择

生成决策树

剪枝

用决策树对鸢尾花的预测


决策树概述

决策树(decision tree)是功能强大的且非常好用的的分类和预测方法,它是一种有监督的学习算法。以树状图为基础,故称为决策树。这里以分类为主题。对于离散值,决策树中的每一个非叶节点都是数据的一个特征,叶节点是数据的分类,决策树从根节点沿着不同的特征分支最终到达叶节点。

无

决策树的构建

决策树的构建主要分为3大步骤

  • 特征选择

  • 生成决策树

  • 剪枝

特征选择

特征选择就是选取有较强分类能力的特征,其评判标准主要有信息增益、信息增益率和基尼系数来判定。

熵是度量数据纯度最常用的一种指标。假设,样本集合D中的第k类样本的概率是{p_k{}^{}}(k=1,2,3...|y|),则D的信息熵为

                                                                  E(D)=-\sum_{k=1}^{|y|}{p_klog_2}p_k

E(D)值越小则数据纯度越高

条件熵

 

 

                                                                             E(D∣A)

表示在给定特征A的条件下,D的条件熵

 

                                                       E(D|A)=\sum_{i=1}^{n}P_A(A=a_i)E(D|A=a_i)                    

其中

                                                          P_A(A=a_i)=\sum_{D}^{ }P(A=a_i,D)

信息增益

信息增益表示:已知集合D的经验熵E(D),给定特征A下D的经验条件熵为E(D∣A)的差

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值