第一章 绪论
数据分析技术的应用: 商务、医学、科学与工程
数据挖掘:在大型数据存储库中,自动地发现有用信息的过程。
与信息检索不同。
KDD:knowledge discovery in database 数据库中知识发现。
1.2 数据挖掘要解决的问题
- 可伸缩
- 高维性
- 一种数据与复杂数据
- 数据的所有权与分布
- 非传统的分析
1.3 数据挖掘的起源
统计学的抽样、估计和假设检验;
人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论;
数据库技术、并行计算、分布式计算 ;
其他领域的思想:最优化、进化计算、信息论、信号处理、可视化和信息检索。
1.4 数据挖掘任务
- 预测任务:根据其他属性的值(明变量explanatory variable),预测特定属性的值(目标变量 target variable)。
描述任务:到处概括数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常)。本质上 描述性数据挖掘任务通常是碳叉形的,且常需要 后处理技术验证和解释结果。