chapter 1 导论
-
什么是大数据
- Volume
- Velocity
- Variety
- Veracity
-
数据挖掘任务
- 关联分析
- 聚类
- 分类/预测
- 离群点分析
-
数据挖掘定义
从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识
-
知识发现流程
- 数据清理: 消除噪声和删除不一致数据
- 数据集成: 多种数据源可以组合在一起
- 数据选择: 从数据库中提取和分析任务相关的数据
- 数据变换: 把数据变换和统一成适合挖掘的形式
- 数据挖掘: 核心步骤, 使用智能方法提取数据模式
- 模式评估: 根据兴趣度度量, 识别代表知识真正有趣的模式
- 知识表示: 使用可视化和知识表示技术, 向用户提供挖掘的知识
-
数据挖掘与其他学科关系
- 数据库系统
- 统计学
- 物理学
- 机器学习
- 信息检索
- 其他
chapter 2 认识数据 数据预处理
-
属性分类
- 标称 二元
- 序数
- 数值
-
统计描述
- 中心趋势: 中位数 均值 众数
- 散布: 极差 四分位数 方差 标准差
-
相似性度量
- 标称
- 二元: 非对称 Jaccard系数
- 数值: 先规范化 曼哈顿 欧式
- 序数: 转化为数值[0, 1] 用数值距离计算
- 马氏距离 相关系数 KL散度 余弦相似性
-
数据预处理: 特征工程
- 数据清理
- 缺失值: 忽略 中位数填充 最可能的值填充(决策树)
- 噪声:光滑分箱 离群点分析聚类 回归
- 数据集成:实体识别 冗余分析 数值相关分析 离散 χ 2 \chi ^2 χ2分析
- 数据规约:
- 维度规约:PCA 小波 特征筛选
- 数量规约:采样 聚类 回归
- 数据变换
- 规范化: 最小最大规范 z-score规范
- 离散化: 分箱 聚类
- 数据离散化
- 信息增益
- 数据清理
chapter 3 关联规则
- 基本定义:什么是关联规则 支持
- 度 P ( A ∪ B ) P(A\cup B) P(A∪B) 置信度 P ( B ∣ A ) P(B|A) P(B∣A)
- 关联规则挖掘
- 寻找频繁项集(支持度)
- 从频繁项集中找出强规则(置信度)
- Apriori流程
- 扫描计数
- 与最小支持度计数比较
- 连接, 剪枝 (从 L k − 1 L_{k-1} Lk−1生成 C k C_k Ck)
- 提升Apriori的方法
- 基于散列
- 事务压缩
- 划分
- 抽样
- FP-growth
与Apriori区别: 不同于"产生-测试", 使用FP紧凑数据结构, 直接提取频繁项集
- 事务项按支持度排序, 除去支持度不够的项
- 构建FP树
- 倒序寻找条件模式基: 子数据库
- 对子数据库构建FP树
- 若为单个路径 产生所有模式 若为多条路径 递归
-
优点 对长短都是有效可伸缩的 效率快
-
缺点 内存要求大, 算法复杂
- 提升度
P ( A ∪ B ) P ( A ) P ( B ) \frac{P(A\cup B)}{P(A)P(B)} P(A)P(B)P(A∪B)
chapter 4 分类
- 监督学习(分类/预测) 无监督学习(关联规则 聚类)
- 生成模型 判别模型
- 生成模型: 学习联合概率分布 朴素贝叶斯 隐马尔科夫模型 容量大时, 生成模型容易接近真实模型 能处理具有隐含变量的情景
- 判别模型: 学习到不同概念从而分类 KNN SVM ANN DT 速度快 准确率高
- 分类 回归
- DT
- 如何构建 贪心算法
- 节点代表属性测试
- 边代表输出
- 叶子代表类
- 属性选择度量
- 信息增益 倾向于有大量不同的取值属性
- 如何构建 贪心算法