-
数据挖掘的功能:
1)概念描述:特征化和比较
2)关联规则
3)分类/预测
4)聚类分析
5)其他的数据挖掘任务 -
从数据分析的角度,DM可以分为两类:描述式挖掘和预测式挖掘。
-
描述性数据挖掘的最简单类型;是以简洁的形式在更一般的(而不是较低层的)抽象层描述数据
-
概念描述用以产生数据的特征化和比较描述
特征化:提供给定数据集的简洁汇总;(一个数据集)
比较(区分):提供两个或多个数据集的比较描述(两个数据集,主目标数据集和对比数据集)
-
定量描述规则
t-weight(t-权):规则兴趣度度量指标。表示规则中一个析取项具有的代表性。
t − w e i g h t = 目 标 集 合 个 数 初 始 数 据 集 中 总 行 数 t-weight=\frac {目标集合个数} {初始数据集中总行数} t−weight=初始数据集中总行数目标集合个数
例:
2 属性相关分析
在数据挖掘任务中,去除掉不相关或弱相关的属性,将能降低数据挖掘的复杂度,同时提高数据挖掘的结果的质量。而该如何确定哪些属性是不相关或弱相关的呢?因此引出属性相关性分析
2.1 属性相关性分析的方法
基本思想:对给定的数据集,计算某种度量,用于量化属性与给定的类或概念间的相关性。
常用的度量包括信息增益、GINI索引、不确定性和相关系数等。
信息熵:不确定性
信息增益:确定性的增加
基于属性选择的方法我们以ID3算法为例:
- ID3算法:选择具有最大信息增益的属性作为当前划分的结点。ID3算法是一种有监督的方式。
- ID3算法原理:ID3算法根据一组类别已知的训练数据集来构造一棵决策树;然后利用构造的决策树对类别未知的数据对象进行分类
- ID3算法选择具有最大信息增益的属性作为决策树的根节点。
信息增益<阈值时,属性删掉
信息增益>阈值时,属性保留
2.2 属性相关性分析的步骤
- 数据收集
- 利用保守的AOI(面向属性的归纳)方法进行属性相关性分析。通过AOI方法获得的数据集被称为数据挖掘任务的候选数据集
- 利用选定的相关性分析度量删除不相关或弱相关的属性(如信息增益度量)
- 使用AOI产生概念描述。
第四步即:利用更严格的属性概化控制阈值来进行基于属性的归纳操作。若描述性挖掘任务是概念描述,仅涉及初始目标数据集;若描述挖掘任务是比较概念描述,则需包括初始目标数据集,及相应的对比数据集。
3 挖掘类比较:区分不同的类
- 比较概念描述:即基于对比数据集挖掘出目标数据集的概念描述。
- 注意:
1)对比数据集和目标数据集应具有相同的属性
2)面向属性的归纳应在所有比较类(比较的数据集)上同步进行。以确保数据集中属性均被概化到同一抽象层次。 - 比较概念描述的实现步骤
1)数据收集
2)属性相关性分析
2)同步概化
4)挖掘结果表示 - 与特征化概念描述类似,比较概念描述也可采用多种形式,如:关系表、组合表、棒图、曲线和规则的形式加以表示。这里着重介绍基于规则的表示方法。
- d_weight: q a q_a qa所包含的目标数据集中数据行数与qa所涵盖的所有数据行数(包括目标数据集及所有对比数据集)之比。其中 q a q_a qa是一个概化后的数据行
- 目标数据集中一个较大的d_weight值意味着相应的概念(概化后某一数据行)涵盖较多的目标数据集中的初始数据行;反之,则意味着该概念涵盖较多的非目标(对比)数据集中的初始数据行。
例:
获得的一个概化后的数据行为“major=“科学”and age_range=“25-30” and gpa=“良””的有关内容如表9所示。
从表9得到: major=“科学”and age_range=“25-30” and gpa=“良”
该数据行相对目标数据集的d_weight为:90/(210+90)=30%
而相对对比数据集的d_weight为:210/(210+90)=70%
即:若一个学生专业为“科学”,年龄在25-30之间且gpa为良,则根据现有数据,有30%的可能为研究生,而70%的可能为本科生。
4 常见的统计度量指标
中心趋势:均值、中位数、模
数据分布:四分位数、方差、标注差
4.1 中心趋势度量指标
1)算数平均值
2)加权平均值:反映相应值的重要性、显著率或发生概率。
3)中位数:先对数据进行排序,若数据值个数为奇数,中位数即为最中间的那个数,否则,取中间两个数的平均值
4)众数:模。集合中出现频率最高的数据
4.2 离散趋势度量指标
1)四分位数
2)方差和标准差