1.什么是数据挖掘(Knowledge Discovery in Database)?
数据挖掘是从大量数据中挖掘有趣模式和知识的过程。数据源包括数据库、数据仓库、Web、其他信息存储库或动态地流入系统的数据。
数据挖掘可以视为数据中的知识发现,知识发现的过程由以下步骤的迭代序列组成:
1-数据清理(消除噪声和删除不一致数据);
2-数据集成(多种数据源可以组合在一起);
3-数据选择(从数据库中提取与分析任务相关的数据);
4-数据变换(通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式);
5-数据挖掘(基本步骤,使用智能方法提取数据模式);
6-模式评估(根据某种兴趣度度量,识别代表知识的真正有趣的模式。)
7-知识表示(使用可视化和只是表示技术,向用户提供挖掘的知识)。
2.数据挖掘模式:
有趣的模式表示知识。一个模式是有趣的,如果它:1-易于被人理解;2-在某种置信度上,对于新的或检验数据都是有效的;3-是潜在有用的(例如,可以据之行动,或者验证了用户关注的某种预感);4-是新颖的。一个模式的有趣与否需要结合客观度量和客户的主观度量。
2-1-类/概念描述:特征化(data charaterization)与区分(data discrimination)(如数据立方体的OLAP上卷和下钻形式)。
2-2-频繁模式(frequency pattern)