Python3入门机器学习之10.1决策树和信息熵

Python3入门机器学习之

10.1 决策树和信息熵

1.什么是决策树?
在这里插入图片描述
在这里插入图片描述
通过以上的例子,我们会提出如何构造决策树的问题:
①.每个节点在哪个维度做划分?
②.某个维度在哪个值上做划分?

2.信息熵:
熵在信息论中代表随机变量不确定度的度量。
熵越大,数据的不确定性越高;熵越小,数据的不确定性越低。
公式如下:
在这里插入图片描述

对于一个系统中,可能有k类的信息,每一类信息所占的比例就叫做pi。

举个例子来理解这个公式,如下:
在这里插入图片描述

右边的计算结果比左边的小,也就是右边的数据比左边的数据更确定。由于右边的数据中的第三类数据占很大比例,所以右边的数据是更确定的;而左边的数据每个类别各占了1/3,所以这个数据整体它的不确定性越强。

有了信息熵这个概念,上面提到的两个问题就好说了。我们在每一个节点上都希望在每一个维度上基于某一个阈值进行划分,划分后使得信息熵降低。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值