数据挖掘笔记（四）—定义及广义知识

最新推荐文章于 2024-05-04 21:31:55 发布

lizhengnanhua

最新推荐文章于 2024-05-04 21:31:55 发布

阅读量4.8k

点赞数

分类专栏：数据挖掘文章标签：数据挖掘

本文链接：https://blog.csdn.net/lizhengnanhua/article/details/8990490

版权

数据挖掘专栏收录该内容

8 篇文章 4 订阅

订阅专栏

1数据挖掘分类：从数据分析角度出发，数据挖掘可以分为两种类型：描述型数据挖掘——以简洁概述的方式表达数据中的存在一些有意义的性质。预测型数据挖掘——通过对所提供数据集应用特定方法分析所获得的一个或一组数据模型，并将该模型用于预测未来新数据的有关性质。

2 广义知识的概念

（1）定义：广义知识是指类别特征的概括性描述知识，也称为概念描述。它反映同类事物共同性质，是对数据的概括、精炼和抽象。

广义知识是对大量数据的归纳、概括，提炼出带有普遍性的、概括性的描述统计知识。

（2）最简单的描述型数据（广义知识）挖掘就是定性归纳。定性归纳常常也称为概念描述。这里概念描述涉及一组（同一类别）的对象，诸如：商店常客等。

概念描述生成对数据的定性描述和对比定性描述。

定性概念描述提供了一个有关数据整体的简洁清晰描述（概念内涵）

对比定性概念描述提供了基于多组（不同类别）数据的对比概念描述（概念外延）

3.广义知识的发现方法

数据挖掘功能：数据泛化，是一个从相对低层概念到更高层概念且对数据库中与任务相关的大量数据进行抽象概述的一个分析过程。

对大量数据进行有效灵活的概述方法主要有两种：1.数据立方体2.面向属性的规约

⑴ 数据立方方法（又称为OLAP方法）进行数据泛化，就是在数据立方中存放着预先对部分或所有维（属性）的聚合计算结果。

对多维数据立方的数据泛化和数据细化工作，可以通过roll up或drill down操作实现

上卷(roll-up)：汇总数据消减数据立方中的维数（维规约），或将属性值泛化为更高层次的概念（概念分层向上攀升）

下钻(drill-down)：上卷的逆操作由不太详细的数据到更详细的数据，可以通过沿维的概念分层向下或引入新的维来实现

数据立方体方法局限性：

①数据类型限制：多数商用数据立方的实现都是将维的类型限制在数值类型方面，而且将处理限制在简单数值聚合方面。由于许多应用涉及到更加复杂数据类型的分析，此时数据立方体的方法应用有限。

②缺乏一定的标准：数据立方方法并不能解决概念描述所能解决的一些重要问题，诸如：在描述中应该使用哪些维？在泛化过程应该进行到哪个抽象层次上。这些问题均要由用户负责提供答案的。

（2）面向属性的规约（AOI）

基本思想：首先利用关系数据库查询来收集与任务相关的数据，并通过对任务相关数据集中各属性不同值个数的检查完成数据泛化操作。数据泛化操作是通过属性消减或属性泛化（又称为概念层次提升）操作来完成的。通过合并（泛化后）相同行并累计它们相应的个数。这就自然减少了泛化后的数据集大小。所获（泛化后）结果以图表和规则等多种不同形式提供给用户。

AOI方法的第一步就是首先利用数据库查询语言从大学数据库中将（与本挖掘任务相关的）学生数据抽取出来；然后指定一组与挖掘任务相关的属性集。而在另一方面，用户或许会提供过多的属性，这时就需要利用前面数据预处理所介绍的数据清理和维归约方法从描述型数据挖掘中过滤掉无关或弱相关的属性。

AOI所涉及的操作主要有两种：

①属性消除：它基于以下规则进行：若一个属性（在初始数据集中）有许多不同数值，且（a）该属性无法进行泛化操作（如：没有定义相应的概念层次树），或（b）它更高层次概念是用其它属性描述的，这时该属性就可以从数据集中消去.

②属性泛化：它是基于以下规则进行：若一个属性（在初始数据集中）有许多不同数值，且该属性存在一组泛化操作，则可以选择一个泛化操作对该属性进行处理。

控制泛化过程的方法：

①属性泛化阈值控制：该技术就是对所有属性统一设置一个泛化阈值，或每个属性分别设置一个阈值；若一个属性不同取值个数大于属性泛化阈值，就需要对相应属性作进一步的属性消减或属性泛化操作。数据挖掘系统通常都有一个缺省属性阈值（一般从2到8）

②泛化关系阈值控制：若一个泛化关系中内容不相同的行数（元组数）大于泛化关系阈值，这就需要进一步进行相关属性的泛化工作。否则就不需要作更进一步的泛化。通常数据挖掘系统都预置这一阈值（一般为10到30）

这两个技术可以串行使用，即首先应用属性阈值控制来泛化每个属性；然后再应用泛化关系阈值控制来进一步减少泛化关系的（规模）大小。

4.关联规则

定义1 关联规则挖掘的数据集记为 D (D一般为事务数据库)，D＝{t1，t2，…，tk，…，tn} }，其中k=1，2，…，n 。

tk＝｛i1，i2，…，ij，…，ip｝为一个事务；tk中的元素 ij (j=1,2,…,p)称为项目(Item)。

定义2 设I＝{ i1, i2,…, ij,…,im }是D中全体项目组成的集合，称为项集。I的任何子集X( X I )称为D中的项目集(Itemset)。若|X|=K，则称集合X为K项集。设 ti 和 X分别为D中的事务和项目集，如果X ti，则称事务 ti 包含项目集X。显然， ti I。

5.关联知识反映一个事件和其他事件之间依赖或相互关联的知识，如果两项或多项属性之间存在关联，那么其中一项的属性值就可以依据其他属性值进行预测。

6.关联规则挖掘就是从大量的数据中挖掘出有价值描述数据项之间相互联系的有关知识。随着收集和存储在数据库中的数据规模越来越大，人们对从这些数据中挖掘相应的关联知识越来越有兴趣。例如：从大量的商业交易记录中发现有价值的关联知识就可帮助进行商品目录的设计、交叉营销或帮助进行其它有关的商业决策。

7.挖掘关联知识的一个典型应用实例就是市场购物分析

“什么商品组或集合顾客多半会在一次购物时同时购买”

给定: 事务数据库，每个事务是一系列商品（一个消费者一次购买的物品）

找到: 所有的规则，这些规则能够表明这些列商品和另一系列商品相关。

E.g., 购买汽车配件的人中有98%会购买汽车服务

应用：

*→ Maintenance Agreement (那些商品能够加强日常消费？)

家用电器 →* (那些商品应该保持高库存？)

规则中的置信度和支持度

	置信度（正确率）低	置信度（正确率）高
支持度（覆盖率）高	规则很少是正确的，但可以使用	规则多数情况下是正确的，而且可以经常使用
支持度（覆盖率）低	规则很少是正确的，一般不被使用	规则多数情况下是正确的，但很少被使用