决策树模型理解

决策树是一种直观且可解释的机器学习模型,适用于多分类和回归问题。通过信息熵和基尼系数衡量数据不确定性,以选择最佳划分特征。过拟合可通过剪枝和调整超参数如`random_state`、`splitter`、`max_depth`、`min_samples_leaf`等来避免。然而,决策树存在决策边界直线化的问题,可能无法形成最优决策边界。
摘要由CSDN通过智能技术生成

决策树概念
根据数据特征划分的一棵树,每个分枝是由某个不同的特征划分得到的。
特点:
直接解决了多分类问题(不需要ovo或ovR),也能解决回归问题
直观而且具有可解释性。
熵的引入
熵的概念最早起源于物理学,用于度量一个热力学系统的无序程度。在信息论里面,熵是对不确定性的测量。
1948年,香农Claude E. Shannon引入信息(熵),将其定义为离散随机事件的出现概率。一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。所以说,信息熵可以被认为是系统有序化程度的一个度量。
信息熵的定义
如果一个随机变量X的可能取值为X = {x1, x2,…, xk},其概率分布为P(X = xi) = pi(i = 1,2, …, n),则随机变量X的熵定义为
在这里插入图片描述
最简单的,如果我们的数据集类别仅取0和1两个元素,其概率为P和(1-P),那么该数据集的熵即可为如下图所示
在这里插入图片描述
由图可见,对于二元离散数据集,当P=0.5时,数据集最不稳定,这时候的信息熵最大;当P越靠近0或者1的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值