**决策树基础以及Python代码实现**

本文介绍了决策树的基本概念,包括信息熵、数据集划分和最优特征选择,并提供了Python代码实现的概述。
摘要由CSDN通过智能技术生成

一、一些定义:
1. 信息: 西瓜有好瓜和坏瓜,好瓜的信息为

l(xi)=log2p(xi)
p(xi) 为好瓜的概率,根据-log函数的图像,如果好瓜的概率越大,信息会趋近于0,也就是从一堆瓜里选出好瓜所需要的信息量越少。
2. 信息熵:熵是信息的期望值
Ent(D)=k=1npklog2pk
D是西瓜数据集,Ent(D)的值越小,D的纯度越高。
在西瓜只分为好瓜和坏瓜的情况下,p(x1)是好瓜的概率,p(x2)为坏瓜的概率,p(x1)+p(x2)=1,这时候信息熵在它们均为0.5时达到最大,若是纯度较高,即好瓜的概率较大,则信息熵比较小。

3.信息增益:假定离散属性a有V个可能的取值,若使用属性a对样本集D进行划分,则会有V个分支节点,第v个分支节点上的样本 Dv
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值