数据挖掘——最佳划分度量（1）

最新推荐文章于 2022-05-06 11:10:05 发布

VictoriaYuri

最新推荐文章于 2022-05-06 11:10:05 发布

阅读量1.6k

点赞数 1

分类专栏：数据挖掘分类最佳划分文章标签：数据挖掘决策树

本文链接：https://blog.csdn.net/VictoriaYuri/article/details/108960634

版权

本文探讨了数据挖掘中用于决定最佳划分的方法，主要关注不纯性度量，如熵和基尼指数。通过计算示例说明了如何评估测试条件的效果，以确定分类树节点的划分效果。文章强调了不纯度降低的重要性，并通过比较不同方案展示了信息增益在决策树构建中的应用。

摘要由CSDN通过智能技术生成

前言

有很多度量可以用来确定划分记录的最佳方法。选择最佳划分的度量通常是根据划分后子女结点不纯性的程度。不纯的程度越低，类分布就会越倾斜。
例子：
类分布为（0,1）的结点具有零不纯性（是比较好的）
均衡分布（0.5,0.5）的结点具有最高的不纯性

提示：以下是本篇文章正文内容，下面案例可供参考

一、不纯性度量的公式

注意：p(i|t)表示给定结点t中属于i类的比例

①熵（信息论中使用较多）
Entropy（t）= 在这里插入图片描述 ②基尼值
Gini（t）=
③分类误差
Classification error（t）=

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

VictoriaYuri

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

决策数算法进阶：属性测试条件、最佳划分度量、过拟合现象的处理

Yancy的博客

11-25

1773

我们在先前博文中已经简要介绍了决策树的思想和几个经典算法来构造决策树：《决策树算法简介及其MATLAB实现代码》。今天我们要针对决策树继续深入探讨一些的问题，目录如下：目录一、表示属性测试条件的方法二、选择最佳划分的度量三、处理决策树归纳中的过分拟合现象一、表示属性测试条件的方法 决策树在增长过程中的每个递归步都要选择一个属性测试条件，将数据划分成更小的子集。为了实现这个步骤...

决策树3: 特征选择之寻找最优划分

木东居士

12-15

2616

0x00 前言 决策树算法的三个步骤：特征选择、决策树生成、决策树剪枝。其中特征选择要解决的核心问题就是：每个节点在哪个维度上做划分？某个维度在哪个值上做划分？划分的依据是：要让数据划...

1 条评论您还未登录，请先登录后发表或查看评论

层次分析法和熵值法经典实操案例+数据

LoveForever4的博客

05-06

3593

1、数据来源：无 2、时间跨度：无 3、区域范围：无 4、指标说明：层次分析法（Analytic Hierarchy Process，简称AHP）是美国运筹学家、匹兹堡大学T. L. Saaty教授在20世纪70年代初期提出的， AHP是对定性问题进行定量分析的一种简便、灵活而又实用的多准则决策方法。它的特点是把复杂问题中的各种因素通过划分为相互联系的有序层次，使之条理化，根据对一定客观现实的主观判断结构（主要是两两比较）把专家意见和分析者的客观判断结果直接而有效地结合起来，将一层次元素两两比较的

决策树基本原理，构建过程和ID3算法

weixin_43765186的博客

05-01

2352

文章目录一、决策树基本原理1.怎么评判选择某个属性值就是最佳划分。结点不纯性的测量2. 何时停止决策树生长二、ID3算法一、决策树基本原理 决策树作为一种常见机器学习方法。如其名，它是基于树结构进行决策的。 决策树的构建过程是一个递归的过程，从根节点开始，每次都选择最佳特征对数据进行划分,当数据集不能再被分割时，即达到叶子节点，也就是分类的结果。根据构建的过程，我们需要解决以下两个问题： 1.怎么评判选择某个属性值就是最佳划分。选择最佳划分的度量通常是根据划分后子结点不纯性的程度。如原本

经典机器学习系列(五)【决策树详解】

小小何先生的学习之旅

01-31

1599

我的微信公众号名称：深度学习先进智能决策微信公众号ID：MultiAgent1024 公众号介绍：主要研究强化学习、计算机视觉、深度学习、机器学习等相关内容，分享学习过程中的学习笔记和心得！期待您的关注，欢迎一起学习交流进步！ ...

数据挖掘——第三章：数据预处理

平什么阿的博客

03-10

6550

文章目录1. 数据存在的问题1.1 原始数据存在的问题1.2 数据质量要求1.3 预处理主要任务2. 数据清洗2.1 空缺值处理2.2 噪声处理3. 数据集成3.1 集成过程中涉及的实体识别3.2 冗余问题3.3 检测冗余方法4. 数据归约4.1 数据归约的标准：4.2 数量归约：直方图4.3 数量归约：数据立方体4.4 数据归约——属性子集选择4.5 数据归约——抽样4.6 数量规约——聚类采样4.7 数量规约——分层取样5. 数据变化与数据离散化 1. 数据存在的问题数据预处理是数据挖掘中的重要一环，

数据挖掘——第二章：数据

平什么阿的博客

03-10

2204

文章目录1. 数据的属性1.1 数据对象1.2 属性1.3 属性类型1.4 离散属性vs连续属性2. 数据的基本统计描述2.1 中心趋势度量2.2 数据分散度量2.3 数据图形显示3. 数据的相似性和相异性3.1 数据矩阵与相异矩阵3.2 标称属性的临近性度量3.3 二进制属性的临近性度量3.4 数值属性的相异性3.5 序数属性的邻近性度量3.6 余弦相似性练习1练习2 1. 数据的属性 1.1 数据对象数据集由数据对象组成。一个数据对象代表一个实体。例如：销售数据库: 顾客、商品、销售医疗数

python数据挖掘决策树算法_数据挖掘——决策树巩固与 Python 实现

weixin_30141547的博客

02-04

262

上个星期去崇州参加比赛，回来老师已经讲到了「分类」，那一节课学了决策树，现在继续课后巩固一下。什么是决策树概念决策树(decision tree)是一种类似于流程图的树结构(可以是二叉树也可以不是)，其中，每个内部节点(非叶子结点)表示在一个属性上的测试，每个分枝代表该测试的一个输出，而每个叶子结点存放一个类标号。书的最顶层节点是根节点。决策树是一种基本的分类与回归方法，它可以看作if-then规...

西电数据挖掘作业——网页聚类算法python实现

03-13

在本项目中，“西电数据挖掘作业——网页聚类算法python实现”是一个关于使用Python进行网页聚类分析的实践案例。这个作业可能属于西安电子科技大学（简称“西电”）数据挖掘课程的一部分，旨在帮助学生理解和应用...

数据挖掘面试 150 道题（附答案）

热门推荐

给我一点温度

09-21

26万+

单选题 1. 某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 2. 以下两种描述分别对应哪两种对分类算法的评价标准？ (A) (a) 警察抓小偷，描述警察抓的人中有多少个是小偷的标准。 (b) 描述有多少比例的小偷给警察抓了的标准。 A. Precision, ...

数据挖掘笔记 - 度量

shawn_gee的博客

11-27

3680

参考文献《数据挖掘导论》 2.4 相似性和向异性的度量《深度学习》 3.13 信息论度量一、数据对象相似性和向异性的度量（一）概述 1.定义非正式的定义为，相似度为两个对象相似程度的度量，两个对象越相似，相似度就越高。相似度通常在0（完全不相似）到1（完全相似）之间取值。相异度（距离）表示两个对象的差异程度，相异度有事在之间取值，有时相异度在。下表是不同类型的属性...

决策树

touchmybody的专栏

03-16

1325

决策树是一种简单的机器学习方法。决策树经过训练之后，看起来像是以树状形式排列的一系列if-then语句。一旦我们有了决策树，只要沿着树的路径一直向下，正确回答每一个问题，最终就会得到答案。沿着最终的叶节点向上回溯，就会得到一个有关最终分类结果的推理过程。 决策树： 1 2 3 4 5 6 7 class

数据挖掘（python实现）—数据预处理

qq_49410604的博客

10-11

2129

一.数据预处理的基本思想和数据规范化数据预处理的原因：数据在搜集时由于各种原因可能存在缺失、错误、不一致等问题用于描述对象的数据有可能不能很好地反映潜在的模式描述对象的属性的数量可能有很多，有些属性是无用的或者冗余的数据规范化：数据规范化又称标准化（standardization），通过将属性的取值范围进行统一，避免不同的属性在数据分析的过程中具有不平等的地位。常用方法： ...

数据分类分析

ZhuiZhuDream5的博客

03-18

1059

分类分析一、决策树算法首先，顾名思义，决策树是基于树结构来进行决策的。树可以表达类和属性的关系。 1.决策树的基本组成部分：决策结点、分支和叶子。 2.如何选择叶子结点——选择最佳划分（属性）的度量选择最佳划分的度量通常是根据划分后子结点不纯性的度量。不纯的程度越低，类分布就越倾斜。 3.采用熵来说明划分后子结点不纯性的度量，如下： Entropy(t)=−∑i=0c−1(p(i∣t)log2p(i∣t))Entropy(t)=-\sum_{i=0}^{c-1}(p(i|t)log_{2}p(i|t)

小孩都看得懂的基尼不纯度

weixin_38753422的博客

03-09

2271

全文共1343字，16幅图，预计阅读时间8分钟。本文是「小孩都看得懂」系列的第十一篇，本系列的特点是极少公式，没有代码，只有图画，只有故事。内容不长，碎片时间完全可以看完，但我背...

什么是数据倾斜，怎么解决数据倾斜？

raven_41的专栏

08-25

1811

相信很多接触MapReduce的朋友对‘数据倾斜’这四个字并不陌生，那么究竟什么是数据倾斜？又改怎样解决这种该死的情况呢？何为数据倾斜？在弄清什么是数据倾斜之前，我想让大家看看数据分布的概念：正常的数据分布理论上都是倾斜的，就是我们所说的2-8原理：80%的财富集中在20%的人手中，80%的用户只使用20%的功能，20%的用户贡献了80%的访问量，不同的数据字段的数据倾斜一般有两种情况：一种是唯一值非常少，极少数值有非常多大记录值；一种是唯一值比较多，这个字段的某些值有远远多于.

《数据挖掘导论》 - 读书笔记(5) - 分类：基本概念、决策树与模型评估 [2016-8-21]...

weixin_30907935的博客

09-17

3884

第4章　　分类:基本概念、决策树与模型评估　　分类任务就是确定对象属于哪个预定义的目标类。分类问题是一个普遍存在的问题，有许多不同的应用。例如：根据电子邮件的标题和内容检查出垃圾邮件，根据核磁共振扫描的结果区分肿瘤是恶性的还是良性的，根据星系的形状对它们进行分析。　　本章介绍分类的基本概念，讨论诸如模型的过分拟合等关键问题，并提供评估和比较分类技术性能的方法。尽管本章主要关注一种称作决策树...

信息熵与Gini不纯度

十四不是八的博客

03-04

1万+

1、信息熵信息论中的信息量和信息熵。信息量：信息量是对信息的度量，就跟温度的度量是摄氏度一样，信息的大小跟随机事件的概率有关。例如：在哈尔滨的冬天，一条消息说：哈尔滨明天温度30摄氏度，这个事件肯定会引起轰动，因为它发生的概率很小（信息量大）。日过是夏天，“明天温度30摄氏度”可能没有人觉得是一个新闻，因为夏天温度30摄氏度太正常了，概率太大了（信息点太小

数据挖掘：聚类分析详解与应用实例

本资料集关注于数据挖掘中的关键部分——聚类分析，它是数据挖掘中最常见的无监督学习方法之一。聚类分析旨在根据数据内在结构将对象分组成相似的组，或者“簇”，而无需预先定义类别。《数据挖掘：概念与技术》这...