数据挖掘知识梳理学习笔记复习

最新推荐文章于 2023-07-11 15:23:07 发布

HeronZhang

最新推荐文章于 2023-07-11 15:23:07 发布

阅读量819

点赞数

分类专栏：学习笔记文章标签：数据挖掘分类 Hadoop MapReduce

本文链接：https://blog.csdn.net/heronzhang/article/details/93899136

版权

本文详细梳理了数据挖掘的知识，包括大数据的4V特性、数据预处理、关联规则、分类与聚类、离群点检测以及大数据技术如Hadoop和MapReduce。介绍了数据清理、特征工程、Apriori算法、决策树、KNN、SVM、Naive Bayes、SVM、K-means、DBSCAN等，并探讨了Hadoop生态系统及其在大规模数据处理中的作用。

摘要由CSDN通过智能技术生成

chapter 1 导论

什么是大数据
- Volume
- Velocity
- Variety
- Veracity
数据挖掘任务
- 关联分析
- 聚类
- 分类/预测
- 离群点分析
数据挖掘定义

从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识
知识发现流程
1. 数据清理: 消除噪声和删除不一致数据
2. 数据集成: 多种数据源可以组合在一起
3. 数据选择: 从数据库中提取和分析任务相关的数据
4. 数据变换: 把数据变换和统一成适合挖掘的形式
5. 数据挖掘: 核心步骤, 使用智能方法提取数据模式
6. 模式评估: 根据兴趣度度量, 识别代表知识真正有趣的模式
7. 知识表示: 使用可视化和知识表示技术, 向用户提供挖掘的知识
数据挖掘与其他学科关系
- 数据库系统
- 统计学
- 物理学
- 机器学习
- 信息检索
- 其他

chapter 2 认识数据数据预处理

属性分类
- 标称二元
- 序数
- 数值
统计描述
- 中心趋势: 中位数均值众数
- 散布: 极差四分位数方差标准差
相似性度量
- 标称
- 二元: 非对称 Jaccard系数
- 数值: 先规范化曼哈顿欧式
- 序数: 转化为数值[0, 1] 用数值距离计算
- 马氏距离相关系数 KL散度余弦相似性
数据预处理: 特征工程
- 数据清理
  - 缺失值: 忽略中位数填充最可能的值填充(决策树)
  - 噪声:光滑分箱离群点分析聚类回归
- 数据集成：实体识别冗余分析数值相关分析离散 $\chi ^2$ 分析
- 数据规约：
  - 维度规约：PCA 小波特征筛选
  - 数量规约：采样聚类回归
- 数据变换
  - 规范化: 最小最大规范 z-score规范
  - 离散化: 分箱聚类
- 数据离散化
- 信息增益

chapter 3 关联规则

基本定义：什么是关联规则支持
度 $P(A\cup B)$ 置信度 $P (B ∣ A)$
关联规则挖掘
1. 寻找频繁项集(支持度)
2. 从频繁项集中找出强规则(置信度)
Apriori流程
1. 扫描计数
2. 与最小支持度计数比较
3. 连接, 剪枝 (从 $L_{k-1}$ 生成 $C_k$ )
提升Apriori的方法
- 基于散列
- 事务压缩
- 划分
- 抽样
FP-growth

与Apriori区别: 不同于"产生-测试", 使用FP紧凑数据结构, 直接提取频繁项集

事务项按支持度排序, 除去支持度不够的项
构建FP树
倒序寻找条件模式基: 子数据库
对子数据库构建FP树
若为单个路径产生所有模式若为多条路径递归

优点对长短都是有效可伸缩的效率快
缺点内存要求大, 算法复杂

提升度
$\frac{P(A\cup B)}{P(A)P(B)}$

chapter 4 分类

监督学习(分类/预测) 无监督学习(关联规则聚类)
生成模型判别模型
- 生成模型: 学习联合概率分布朴素贝叶斯隐马尔科夫模型容量大时, 生成模型容易接近真实模型能处理具有隐含变量的情景
- 判别模型: 学习到不同概念从而分类 KNN SVM ANN DT 速度快准确率高
分类回归
DT
- 如何构建贪心算法
  - 节点代表属性测试
  - 边代表输出
  - 叶子代表类
- 属性选择度量
  - 信息增益倾向于有大量不同的取值属性