数据挖掘数学基础:
线性代数, 维度规约, 概率统计, 回归和优化
数据挖掘涵盖领域:
数据预处理,可视化,预测建模,关联分析,聚类,异常检测
数据挖掘涵盖主题:
数据,分类,关联分析,聚类,异常检测
数据挖掘必要基础知识:
统计学,线性代数,机器学习
数据库中知识发现(KDD):
(1)数据预处理: 特征选择,维规约,规范化,选择数据子集
(2)数据挖掘:
(3)后处理: 模式过滤, 可视化, 模式表示
数据挖掘借鉴的领域:
(1)统计学: 抽样,估计和假设检验
(2)人工智能,模式识别和机器学习: 搜索算法,建模技术和学习理论
(3)最优化,进化计算,信息论,信号处理,可视化,信息检索
数据挖掘任务分类:
(1)预测任务: 根据 自变量 预测 因变量
(2)描述任务: 导出概括数据中潜在联系的模式
(相关,趋势,聚类,轨迹和异常)
本书主要讲述数据挖掘任务:
(1)预测建模:
分类(classification):预测离散的目标变量
回归(regression):预测连续的目标变量
(2)关联分析:
描述数据中强关联特征的模式
模式:用蕴涵规则或特征子集的形式表示
(3)聚类分析:发现紧密相关的观测值组群,使得属于统一簇的观测值之间尽可能相似
(4)异常检测:识别异常点或离群点。
异常点(离群点): 特征显著不同于其他数据的观测值。