【大数据开发基础】第六章概念描述

最新推荐文章于 2024-10-25 11:56:34 发布

-断言-

最新推荐文章于 2024-10-25 11:56:34 发布

阅读量735

点赞数

分类专栏： # 大数据开发基础

本文链接：https://blog.csdn.net/qq_44807176/article/details/116264829

版权

大数据开发基础专栏收录该内容

9 篇文章

订阅专栏

本文探讨了数据挖掘中的属性相关性分析，介绍了如何通过信息增益等度量标准来评估和筛选相关属性。ID3算法作为示例，说明了在决策树构建中选择最具相关性属性的过程。同时，讨论了类比较的概念描述，强调了对比数据集的一致性处理。此外，还涵盖了统计度量指标，如中心趋势和离散趋势的度量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据挖掘的功能：
1）概念描述：特征化和比较
2）关联规则
3）分类/预测
4）聚类分析
5）其他的数据挖掘任务
从数据分析的角度，DM可以分为两类：描述式挖掘和预测式挖掘。
描述性数据挖掘的最简单类型；是以简洁的形式在更一般的（而不是较低层的）抽象层描述数据
概念描述用以产生数据的特征化和比较描述
特征化：提供给定数据集的简洁汇总；（一个数据集）
比较（区分）：提供两个或多个数据集的比较描述（两个数据集，主目标数据集和对比数据集）
定量描述规则
t-weight（t-权）：规则兴趣度度量指标。表示规则中一个析取项具有的代表性。
$t-weight=\frac {目标集合个数} {初始数据集中总行数}$

例：

2 属性相关分析

在数据挖掘任务中，去除掉不相关或弱相关的属性，将能降低数据挖掘的复杂度，同时提高数据挖掘的结果的质量。而该如何确定哪些属性是不相关或弱相关的呢？因此引出属性相关性分析

2.1 属性相关性分析的方法

基本思想：对给定的数据集，计算某种度量，用于量化属性与给定的类或概念间的相关性。

常用的度量包括信息增益、GINI索引、不确定性和相关系数等。

信息熵：不确定性

信息增益：确定性的增加

基于属性选择的方法我们以ID3算法为例：

ID3算法：选择具有最大信息增益的属性作为当前划分的结点。ID3算法是一种有监督的方式。
ID3算法原理：ID3算法根据一组类别已知的训练数据集来构造一棵决策树；然后利用构造的决策树对类别未知的数据对象进行分类
ID3算法选择具有最大信息增益的属性作为决策树的根节点。

信息增益<阈值时，属性删掉
信息增益>阈值时，属性保留

2.2 属性相关性分析的步骤

数据收集
利用保守的AOI（面向属性的归纳）方法进行属性相关性分析。通过AOI方法获得的数据集被称为数据挖掘任务的候选数据集
利用选定的相关性分析度量删除不相关或弱相关的属性（如信息增益度量）
使用AOI产生概念描述。

第四步即：利用更严格的属性概化控制阈值来进行基于属性的归纳操作。若描述性挖掘任务是概念描述，仅涉及初始目标数据集；若描述挖掘任务是比较概念描述，则需包括初始目标数据集，及相应的对比数据集。

3 挖掘类比较：区分不同的类

比较概念描述：即基于对比数据集挖掘出目标数据集的概念描述。
注意：
1）对比数据集和目标数据集应具有相同的属性
2）面向属性的归纳应在所有比较类（比较的数据集）上同步进行。以确保数据集中属性均被概化到同一抽象层次。
比较概念描述的实现步骤
1）数据收集
2）属性相关性分析
2）同步概化
4）挖掘结果表示
与特征化概念描述类似，比较概念描述也可采用多种形式，如：关系表、组合表、棒图、曲线和规则的形式加以表示。这里着重介绍基于规则的表示方法。
d_weight： $q_a$ 所包含的目标数据集中数据行数与qa所涵盖的所有数据行数（包括目标数据集及所有对比数据集）之比。其中 $q_a$ 是一个概化后的数据行
目标数据集中一个较大的d_weight值意味着相应的概念（概化后某一数据行）涵盖较多的目标数据集中的初始数据行；反之，则意味着该概念涵盖较多的非目标（对比）数据集中的初始数据行。

例：

获得的一个概化后的数据行为“major=“科学”and age_range=“25-30” and gpa=“良””的有关内容如表9所示。

从表9得到： major=“科学”and age_range=“25-30” and gpa=“良”
该数据行相对目标数据集的d_weight为：90/(210+90)=30%
而相对对比数据集的d_weight为：210/(210+90)=70%
即：若一个学生专业为“科学”，年龄在25-30之间且gpa为良，则根据现有数据，有30%的可能为研究生，而70%的可能为本科生。