2021 数据挖掘与大数据分析复习笔记 电子科技大学《数据挖掘与大数据分析期末》课程期末高分指南

这篇博客是关于电子科技大学《数据挖掘与大数据分析》课程的期末复习笔记,涵盖数据挖掘基本概念、数据预处理、关联规则、分类/回归、聚类分析、大数据处理等内容。重点讲解了KDD过程、数据的统计描述、决策树、KNN、SVM、KMEANS、DBSCAN等算法,以及数据流挖掘和Hadoop/Spark的基础知识。博客提供了复习提纲和重要知识点,适合期末复习和对大数据分析感兴趣的学习者。
摘要由CSDN通过智能技术生成

狼狈不堪的数据挖掘期末课程复习结束辽
给这门课程画上一个句号吧!
虽然之后主要方向是搞开发了 但是万一以后想去搞大数据捏~

这是我总结的这门课程的部分章节内容

为了总结下这门课程所学 也让之后有缘找到的学弟学妹们(如果这个课还在的话)能更好地复习吧~
分享一下复习笔记

2021.6.23出了成绩来更新一波
最后这门课的成绩是89 简单了解了下 在班里大概算是中等水平吧?
期末考试中的好多题目在笔记里都是有体现的 (有复习需求的)大家可以下载下来 根据自己的理解进行增删 进行学习理解
没有复习需求的也可以看着玩玩hhh

下面的 只是一个概况
没有插图片(图片都在本地 一个个粘过来太麻烦惹!)
如果有兴趣的
可以戳这里下载完整的课程ppt与笔记
在这里插入图片描述

文章目录

题型

  • 选择题——单选、多选
  • 大题——2道计算题 大部分是简答题 最后一题是综合题
  • 决策树的流程
  • 聚类有哪些类型
  • 数据挖掘的任务有哪些~
    • 关联规则挖掘
    • 分类/预测 与 回归
    • 聚类分析
    • 孤立点检测

第一章 数据挖掘与大数据简介

在这里插入图片描述

复习提纲

  • 1.基本概念
    • 什么是大数据
    • 什么是数据挖掘
  • 2.数据挖掘主要任务
  • 3.KDD过程(数据挖掘是核心)
  • 4.DM的挑战

1.基本概念

  • 什么是大数据

无法在 一定时间内用常规软件工具 对其内容进行 抓取、管理、处理 的数据集合

是要更新处理模式才能具有更强的决策力、洞察发现力、流程优化能力 来适应海量、高增长率和多样化的信息资产

  • 什么是数据挖掘

大量的数据中挖掘那些 令人感兴趣的、有用的、隐含的、先前未知的、可能有用的 模式或知识

关键是 “从大量的数据中挖掘令人感兴趣的模式或知识”

2.数据挖掘主要任务

【1】关联(规则)分析 如挖掘空气质量和气象条件之间的关系

【2】聚类分析 将数据归为不同的类 形成新的类别进行分析

【3】分类 预测 回归 找出描述和区分数据类或者概念的模型 让该模型可以预测未知的对象类标签

【4】离群点分析分析孤立而原本会被当作噪音丢弃的数据 在欺骗检测中通过孤立点分析得到的结论

这些内容之后章节都会讲到!

3.【重要!】KDD过程(知识发现过程)

最后一道题 的 一个思路

KDD : 从数据中获取知识

【1】数据清理:消除噪声和删除不一致数据

【2】数据集成:多种数据源可以组合在一起

【3】数据选择:从数据库中提取与分析任务相关的数据

【4】数据变换:把数据变换和统一成适合挖掘的形式

【5】数据挖掘 :核心步骤,使用智能方法提取数据模式

知识发现的核心!

【6】模式评估:根据兴趣度度量,识别代表知识的真正有趣的模式

【7】知识表示:使用可视化和知识表示技术,向用户提供挖掘的知识

注意 数据挖掘 是核心

4.数据挖掘的挑战

数据容量 Scale of Data — VOLUMN

数据实时性 Data Stream — VELOCITY

数据多样性 Different format of data different sources — VARIETY

数据不确定性 Uncertainty, missing value

第二章 认识数据与数据预处理

复习提纲

  • 1.属性类型
  • 2.数据的统计描述
    • 中心性
      • 均值
      • 众数
      • 中位数
      • 中列数
    • 散度
      • 极差
      • 最大
      • 最小
      • 四分位
      • 百分位
      • 方差
  • 3.相似性度量
    • 标称 d(i, j) = #不同/#总
    • 数值
      • 欧式
      • 曼哈顿
    • 数据标准化/归化
      • 最大最小法
      • Z-Score
    • 其他相似性
      • 余弦
      • 相关子数
      • KL散度
  • 4.数据预处理
  • 清理 -> 集成 ->归约 -> 变换 -> 离散化
    • 清理:缺值、噪声
    • 集成:冗余分析、卡方检验
    • 归约:采样 PCA/特征筛选(没太看懂
    • 变换:最大最小法

1.属性类型

  • 分类型
    • 标称型
    • 标称型目标变量的结果只在有限目标集中取值,比如真与假(标称型目标变量主要用于分类)
      • 例: ID 号、眼球颜色、邮政编码
      • 特殊:二元
    • 序数型
      • 例: 军阶 、 GPA、用 {tall, medium, short}表示的高
  • 数值型
  • 数值型目标变量则可以从无限的数值集合中取值,如0.555,666.666等 (数值型目标变量主要用于回归分析)
    • 区间
      • 例: 日历、摄氏或华氏温度.
    • 比率
      • 例: 开氏温度、长度、计数
  • **标称属性**的值是一些符号和事物的名称(比如头发的颜色)

标称:意味着“与名称相关”

  • 二元属性 是标称的一种 1代表有 0代表没有

    如果是对称的说明无权重(例如男女性别)

    如果是非对称的说明有权重(例如检测结果为阴性/阳性)

数值属性:区间、比率

2.【重要!选填题】数据的统计描述

中心趋势度量均值(中列数)、众数、中位数、 —— (中心性描述)

数据的散布**极差、四分位数、四分位数极差、五数概括、盒图 **—— (散布描述)

中心趋势度量

  • 均值(mean)

均值 = 总和/个数

加权平均:考虑权重的均值

    • 中列数:

数据集的最大和最小值的平均值

  • 中位数(median)

有序数据值的中间值。

大数据 :近似值估计(线性插值方法)

  • 众数:(mode)

在集合中出现最频繁的值。(一个数据集中可能有多个众数)

对于非对称的单峰数据,有以下经验关系:

mean-mode ~ 3 * (mean-median)即为 均值 - 众数 近似等于 3*(均值 - 中间数)

选填可能会考!

数据的散布

  • 方差
  • 标准差
  • 极差

max-min

  • 四分位数(quantile)
  • 四分位数极差(距离)

IQR=Q3-Q1

  • 39
    点赞
  • 221
    收藏
    觉得还不错? 一键收藏
  • 17
    评论
评论 17
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值