在图书馆借了两本参考书:《数据挖掘导论》与《数据挖掘概念与技术》
序言:
1.什么是数据挖掘(知识发现)?
(1)数据清理(清除噪声和删除不一致数据)。
(2)数据集成(多种数据源可以组合在一起)。
(3)数据选择(从数据库提取与分析任务相关的数据)。
(4)数据变换(通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式)。
(5)数据挖掘(基本步骤使用智能方法提取数据模式)。
(6)模式评估(根据某种兴趣度度量,识别代表只是的真正有趣的模式)。
(7)知识表示(使用可视化和知识表达技术,想用户提供挖掘的知识)。
2.什么是数据仓库?
·数据仓库是一个从多个数据源手机的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上。
·数据仓库用称作数据立方体(data cube)的多位数据结构建模。其中,每个为对应于模式中的一个或一组属性。
3.数据挖掘任务
·预测任务:根据其他属性的值,预测特定属性的值。
·描述任务:导出概括数据中潜在联系的模式。(相关、趋势、聚类、轨迹、异常)
·预测建模:涉及以说明变量函数的方式为目标变量建立模型。分为:分类、回归。
·关联分析:用来发现描述数据中强关联特征的模式。
·聚类分析:旨在发现紧密相关的观测值组群。
·异常检测:识别其特征显著不同于其他数据的观测值。