数据挖掘导论
一、绪论
- 数据仓库:一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持决策分析。
- 数据挖掘是数据库中知识发现(KDD)不可缺少的一部分,KDD是将未加工的数据转换为有用信息的整个过程。如图:
- 数据预处理:包括清洗数据以便消除噪声和重复的观测值,以及选择与当前数据挖掘任务相关的记录和特征。它是整个知识发现过程中最费力、最耗时的步骤。
- 后处理:将有效和有用的结果集放到决策支持系统(DSS)中。可视化可以帮助数据分析者从不同角度探查数据和数据挖掘的结果。
数据仓库和数据挖掘的结合为决策支持系统开辟了新方向,他们是商业智能的主要组成部分。
传统的数据分析中遇到的困难
- 算法可伸缩性。如在处理不同数据集中,其结构之间的差异,需要实现新的数据结构。
- 数据集维度高。随着维度(特征数)增加,计算复杂性增加。
- 异构数据、复杂数据多样。如半结构化的文本。
- 数据多分布。如要获取的数据集分布在不同的位置与不同的机构。
- 产生假设和评估假设。需要设计和评估的假设千变万化,如何自动进行。
数据挖掘的任务
1、预测任务
根据某些属性的值,预测特定的属性值。将被预测的属性称为目标变量,将用于预测的属性称为说明变量。
2、描述任务
概括数据中潜在的联系模式。如,聚类、趋势、相关、异常、轨迹。
除此之外,还有聚类分析、预测建模、关联分析、异常检测四种主要的数据挖掘任务。
预测建模:将说明变量以函数方式进行建模。
预测建模的任务有2类:分类和回归。
分类:预测离散的目标变量;如,预测一个用户是否会在网上买书。该目标变量是一个二值。
回归:预测连续的目标变量;如,预测某股票的未来价格。该目标变量(价格)是个连续属性。
但是,无论哪个任务,它们的任务都是训练一个模型,让目标变量的预测值与实际值之间的误差达到最小。
相关应用:预测顾客对产品促销活动的反应;根据检查结果判断病人是否患有某种疾病;等等。
关联分析:发现描述数据中强关联特征的模式。目标是以有效的方式提取最有趣的模式。
相关应用:识别用户一起访问的网页;找出具有相关功能的基因组;等等。
聚类分析:发现紧密相关的观测值组群,使得与属于不同簇的观测值相比较起来,属于同一簇的观测值相互之间尽可能类似。
相关应用:对相关顾客分组;等等。
异常检测:识别其特征显著不同于其他数据的观测值(异常点/离群点)。目标是发现真正的异常点,避免错误地将正常的对象标注为异常点。
相关应用:检测欺诈;网络攻击;等等。