数据挖掘——最佳划分度量(1)

本文探讨了数据挖掘中用于决定最佳划分的方法,主要关注不纯性度量,如熵和基尼指数。通过计算示例说明了如何评估测试条件的效果,以确定分类树节点的划分效果。文章强调了不纯度降低的重要性,并通过比较不同方案展示了信息增益在决策树构建中的应用。
摘要由CSDN通过智能技术生成

前言

有很多度量可以用来确定划分记录的最佳方法。选择最佳划分的度量通常是根据划分后子女结点不纯性的程度。不纯的程度越低,类分布就会越倾斜。
例子:
类分布为(0,1)的结点具有零不纯性(是比较好的)
均衡分布(0.5,0.5)的结点具有最高的不纯性


提示:以下是本篇文章正文内容,下面案例可供参考

一、不纯性度量的公式

注意:p(i|t)表示给定结点t中属于i类的比例

①熵(信息论中使用较多)
Entropy(t)=在这里插入图片描述②基尼值
Gini(t)=
在这里插入图片描述③分类误差
Classification error(t)=
在这里插入图片描述

ÿ

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值