1. 为什么数据挖掘是重要的?
主要是由于存在可以广泛使用的大量数据,并且迫切需要将这些数据转换成有用的信息和知识,以将其广泛用于市场分析、欺诈检测、顾客保有、产品控制和科学探索等。
2. 数据挖掘系统的一般结构
知识发现过程由以下步骤组成:
(1) 数据清理——消除噪声和不一致数据;
(2) 数据集成——可将多重数据源组合在一起;
(3) 数据选择——从DB中提取与分析任务相关的数据;
(4) 数据变换——将数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作
(5) 数据挖掘——使用智能方法提取数据模式;
(6) 模式评估——根据某种兴趣度量,识别表示知识的真正有趣的模式;
(7) 知识表示——使用可视化和知识表示技术,向用户提供挖掘的知识。
可见,可将数据挖掘看作是知识发现过程的一个步骤。典型的数据挖掘系统具有以下主要成分:
3. 如何定义数据挖掘
根据数据挖掘功能的广义观点:数据挖掘是从存放在数据库、数据仓库或其他信息库中的大量数据中发现有趣的知识。
4. 对何种数据进行挖掘
包括关系数据库、数据仓库、事务数据库、高级数据库系统、一般文件、数据流和万维网。其中高级数据库系统包括对象-关系数据库和面向特殊应用的数据库如:空间数据库、时间序列数据库、文本数据库和多媒体数据库。
5. 可以挖掘什么类型的模式
由于有些模式并非对数据库中的所有数据都成立,通常每个被发现的模式都附上一个确定性或“可信性”度量。数据挖掘功能以及她们可以发现的模式类型如下:
(1) 概念/类模式:特征化和区分
数据特征化(data characterization)是目标类数据的一般特性或特征的汇总。数据特征的输出可以用多种形式,包括饼图、条图、曲线、多维数据立方体和包括交叉表在内的多维表。结果的描述也可以用广义关系(generalized relation)或规则形式提供。
数据区分(data discrimination)是将目标数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。结果输出的形式类似于特征化描述,但区分描述应包括比较度量,以帮助区别目标类和对比类。
(2) 挖掘频繁模式、关联和相关
频繁模式是在数据帧频繁出现的模式,有多种类型,包括项集、子序列和子结构。
(3) 分类和预测
分类的过程:找出描述和区分数据类或概念的模型(或函数),以便能够利用这些模型预测类标号未知的对象类。导出模型是基于对训练数据集的分析,可用多种形式表示,如分类规则(IF-THEN)、决策树、数学公式和神经网络。
分类预测分类的标号,预测建立连续值函数模型。
相关分析(relevance analysis)可能需要在分类和预测之前进行,它试图识别对于分类或预测过程无用的属性。
(4) 聚类分析
(5) 离群点分析
数据库中可能包含一些称为离群点(Outlier)的数据对象,它们与数据的一般行为或模型不一致。
(6) 演变分析
数据演变分析(evolution analysis)描述行为随时间变化的对象的规律或趋势,并对其建模。
6. 什么样的模式提供有用的知识?
存在一些模式兴趣度的客观度量,如规则的支持度、置信度。定义如下:
Support(X=>Y) = P(XUY)
Confidence(X=>Y) = P(Y|X)
但仅有客观度量是不够的,还要结合反映特定用户需要和兴趣的主观度量。如果模式是出乎意料的(与用户的信念相矛盾),或者提供用户可以采取行动的策略信息,那么它是有趣的;意料中的模式也可能是有趣的,如果它们证实了用户希望验证的假设,或与用户的预感相似。
为了有效地发现对于特定用户有价值的模式,模式兴趣度是不可或缺的。