数据挖掘 知识梳理 学习笔记 复习

本文详细梳理了数据挖掘的知识,包括大数据的4V特性、数据预处理、关联规则、分类与聚类、离群点检测以及大数据技术如Hadoop和MapReduce。介绍了数据清理、特征工程、Apriori算法、决策树、KNN、SVM、Naive Bayes、SVM、K-means、DBSCAN等,并探讨了Hadoop生态系统及其在大规模数据处理中的作用。
摘要由CSDN通过智能技术生成

chapter 1 导论

  1. 什么是大数据

    • Volume
    • Velocity
    • Variety
    • Veracity
  2. 数据挖掘任务

    • 关联分析
    • 聚类
    • 分类/预测
    • 离群点分析
  3. 数据挖掘定义

    从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识

  4. 知识发现流程

    1. 数据清理: 消除噪声和删除不一致数据
    2. 数据集成: 多种数据源可以组合在一起
    3. 数据选择: 从数据库中提取和分析任务相关的数据
    4. 数据变换: 把数据变换和统一成适合挖掘的形式
    5. 数据挖掘: 核心步骤, 使用智能方法提取数据模式
    6. 模式评估: 根据兴趣度度量, 识别代表知识真正有趣的模式
    7. 知识表示: 使用可视化和知识表示技术, 向用户提供挖掘的知识
  5. 数据挖掘与其他学科关系

    • 数据库系统
    • 统计学
    • 物理学
    • 机器学习
    • 信息检索
    • 其他

chapter 2 认识数据 数据预处理

  1. 属性分类

    • 标称 二元
    • 序数
    • 数值
  2. 统计描述

    • 中心趋势: 中位数 均值 众数
    • 散布: 极差 四分位数 方差 标准差
  3. 相似性度量

    • 标称
    • 二元: 非对称 Jaccard系数
    • 数值: 先规范化 曼哈顿 欧式
    • 序数: 转化为数值[0, 1] 用数值距离计算
    • 马氏距离 相关系数 KL散度 余弦相似性
  4. 数据预处理: 特征工程

    • 数据清理
      • 缺失值: 忽略 中位数填充 最可能的值填充(决策树)
      • 噪声:光滑分箱 离群点分析聚类 回归
    • 数据集成:实体识别 冗余分析 数值相关分析 离散 χ 2 \chi ^2 χ2分析
    • 数据规约:
      • 维度规约:PCA 小波 特征筛选
      • 数量规约:采样 聚类 回归
    • 数据变换
      • 规范化: 最小最大规范 z-score规范
      • 离散化: 分箱 聚类
    • 数据离散化
    • 信息增益

chapter 3 关联规则

  1. 基本定义:什么是关联规则 支持
  2. P ( A ∪ B ) P(A\cup B) P(AB) 置信度 P ( B ∣ A ) P(B|A) P(BA)
  3. 关联规则挖掘
    1. 寻找频繁项集(支持度)
    2. 从频繁项集中找出强规则(置信度)
  4. Apriori流程
    1. 扫描计数
    2. 与最小支持度计数比较
    3. 连接, 剪枝 (从 L k − 1 L_{k-1} Lk1生成 C k C_k Ck)
  5. 提升Apriori的方法
    • 基于散列
    • 事务压缩
    • 划分
    • 抽样
  6. FP-growth

与Apriori区别: 不同于"产生-测试", 使用FP紧凑数据结构, 直接提取频繁项集

  1. 事务项按支持度排序, 除去支持度不够的项
  2. 构建FP树
  3. 倒序寻找条件模式基: 子数据库
  4. 对子数据库构建FP树
  5. 若为单个路径 产生所有模式 若为多条路径 递归
  • 优点 对长短都是有效可伸缩的 效率快

  • 缺点 内存要求大, 算法复杂

  1. 提升度
    P ( A ∪ B ) P ( A ) P ( B ) \frac{P(A\cup B)}{P(A)P(B)} P(A)P(B)P(AB)

chapter 4 分类

  1. 监督学习(分类/预测) 无监督学习(关联规则 聚类)
  2. 生成模型 判别模型
    • 生成模型: 学习联合概率分布 朴素贝叶斯 隐马尔科夫模型 容量大时, 生成模型容易接近真实模型 能处理具有隐含变量的情景
    • 判别模型: 学习到不同概念从而分类 KNN SVM ANN DT 速度快 准确率高
  3. 分类 回归
  4. DT
    • 如何构建 贪心算法
      • 节点代表属性测试
      • 边代表输出
      • 叶子代表类
    • 属性选择度量
      • 信息增益 倾向于有大量不同的取值属性
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值