数据挖掘——最佳划分度量(1)

数据挖掘 同时被 3 个专栏收录
1 篇文章 0 订阅
1 篇文章 0 订阅
1 篇文章 0 订阅

前言

有很多度量可以用来确定划分记录的最佳方法。选择最佳划分的度量通常是根据划分后子女结点不纯性的程度。不纯的程度越低,类分布就会越倾斜。
例子:
类分布为(0,1)的结点具有零不纯性(是比较好的)
均衡分布(0.5,0.5)的结点具有最高的不纯性


提示:以下是本篇文章正文内容,下面案例可供参考

一、不纯性度量的公式

注意:p(i|t)表示给定结点t中属于i类的比例

①熵(信息论中使用较多)
Entropy(t)=在这里插入图片描述②基尼值
Gini(t)=
在这里插入图片描述③分类误差
Classification error(t)=
在这里插入图片描述

!以下是三种不纯性度量方法的计算实例:

在这里插入图片描述

二、测试条件的效果

为了确定测试条件的效果,需要比较父结点(划分前)的不纯程度和子女结点(划分后)的不纯程度,他们的差越大,测试的条件越好。增益∆是一种可以用来确定划分效果的标准
在这里插入图片描述①I(parent):父结点(给定结点)的不纯性度量
②N:父结点上的记录总数
③k:属性个数
④N(Vj):与子女结点Vj相关联的记录个数
⑤当选择熵作为不纯度度量时,熵的差就是信息增益

例题如下

在这里插入图片描述
1、测试效果:用熵的不纯性度量公式

对方案A
在这里插入图片描述解释:I(parent)=1→因为父结点是完全不分类

对方案B
在这里插入图片描述2、用分类误差的不纯性度量公式

对方案A
在这里插入图片描述

对方案B
在这里插入图片描述

通过计算结果可知,方案B的分类效果更好


总结

这篇文章简单介绍了数据挖掘中对于分类的一般衡量方法,运用理论和例题结合的方式帮助理解。

  • 1
    点赞
  • 1
    评论
  • 0
    收藏
  • 一键三连
    一键三连
  • 扫一扫,分享海报

©️2020 CSDN 皮肤主题: 深蓝海洋 设计师:CSDN官方博客 返回首页
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值