引论
1.1为什么进行数据挖掘?
信息时代的来临不贴切,我们的时代其实是数据时代,还没有真正步入信息时代,现在数据爆炸增长,需要将数据转化为知识。
1.2什么是数据挖掘?
即KDD,数据中的数据发现
知识发现的迭代步骤为:1)数据清理2)数据集成3)数据选择4)数据变换5)数据挖掘6)模式评估7)知识表示
广义的数据挖掘可表述为:从大量数据中挖掘有趣模式和知识的过程。
1.3可以挖掘什么类型的数据?
1)数据库数据
一些概念如:
数据库系统(有一组内部相关的数据和一组管理和存取数据的软件程序组成)
关系数据库(表的汇集,实体-联系数据模型,将数据库表示成一组实体和他们之间的联系)
数据库查询(连接、选择、投影、优化,提取数据的一个指定的问题)
2)数据仓库
一个从多个数据源收集的信息存储库,存放在一直的模式下,并且通常驻留在单个结点上,通常是汇总的
一些概念:
数据立方体(多维数据结构建模,每个维对于一个或一组属性,每个单元存放某种度量)
OL