2021 数据挖掘与大数据分析复习笔记电子科技大学《数据挖掘与大数据分析期末》课程期末高分指南

最新推荐文章于 2021-09-17 11:59:21 发布

敲代码的小提琴手

最新推荐文章于 2021-09-17 11:59:21 发布

阅读量9.4k

点赞数 41

分类专栏：课堂笔记-数据挖掘与大数据分析文章标签：数据挖掘决策树电子科技大学期末复习笔记新星计划

嘿朋友谢谢你复制我的文章喜欢的话给点个赞交个朋友吧~

本文链接：https://blog.csdn.net/qq_45704942/article/details/117554043

版权

这篇博客是关于电子科技大学《数据挖掘与大数据分析》课程的期末复习笔记，涵盖数据挖掘基本概念、数据预处理、关联规则、分类/回归、聚类分析、大数据处理等内容。重点讲解了KDD过程、数据的统计描述、决策树、KNN、SVM、KMEANS、DBSCAN等算法，以及数据流挖掘和Hadoop/Spark的基础知识。博客提供了复习提纲和重要知识点，适合期末复习和对大数据分析感兴趣的学习者。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

狼狈不堪的数据挖掘期末课程复习结束辽
给这门课程画上一个句号吧！
虽然之后主要方向是搞开发了但是万一以后想去搞大数据捏~

这是我总结的这门课程的部分章节内容

为了总结下这门课程所学也让之后有缘找到的学弟学妹们（如果这个课还在的话）能更好地复习吧~
分享一下复习笔记

2021.6.23出了成绩来更新一波
最后这门课的成绩是89 简单了解了下在班里大概算是中等水平吧？
期末考试中的好多题目在笔记里都是有体现的（有复习需求的）大家可以下载下来根据自己的理解进行增删进行学习理解
没有复习需求的也可以看着玩玩hhh

下面的只是一个概况
没有插图片（图片都在本地一个个粘过来太麻烦惹！）
如果有兴趣的
可以戳这里下载完整的课程ppt与笔记
在这里插入图片描述

题型

选择题——单选、多选
大题——2道计算题大部分是简答题最后一题是综合题

决策树的流程

聚类有哪些类型

数据挖掘的任务有哪些~

关联规则挖掘

分类/预测与回归

聚类分析

孤立点检测

第一章数据挖掘与大数据简介

在这里插入图片描述

复习提纲

1.基本概念
- 什么是大数据
- 什么是数据挖掘
2.数据挖掘主要任务
3.KDD过程（数据挖掘是核心）
4.DM的挑战

1.基本概念

什么是大数据

无法在 一定时间内用常规软件工具 对其内容进行 抓取、管理、处理 的数据集合

是要更新处理模式才能具有更强的决策力、洞察发现力、流程优化能力来适应海量、高增长率和多样化的信息资产

什么是数据挖掘

从大量的数据中挖掘那些 令人感兴趣的、有用的、隐含的、先前未知的、可能有用的模式或知识。

关键是 “从大量的数据中挖掘令人感兴趣的模式或知识”

2.数据挖掘主要任务

【1】关联（规则）分析 如挖掘空气质量和气象条件之间的关系

【2】聚类分析 将数据归为不同的类形成新的类别进行分析

【3】分类预测回归 找出描述和区分数据类或者概念的模型让该模型可以预测未知的对象类标签

【4】离群点分析分析孤立而原本会被当作噪音丢弃的数据在欺骗检测中通过孤立点分析得到的结论

这些内容之后章节都会讲到！

3.【重要！】KDD过程（知识发现过程）

最后一道题的一个思路

KDD ：从数据中获取知识

【1】数据清理：消除噪声和删除不一致数据

【2】数据集成：多种数据源可以组合在一起

【3】数据选择：从数据库中提取与分析任务相关的数据

【4】数据变换：把数据变换和统一成适合挖掘的形式

【5】数据挖掘 ：核心步骤，使用智能方法提取数据模式

知识发现的核心！

【6】模式评估：根据兴趣度度量，识别代表知识的真正有趣的模式

【7】知识表示：使用可视化和知识表示技术，向用户提供挖掘的知识

注意数据挖掘是核心

4.数据挖掘的挑战

数据容量 Scale of Data — VOLUMN

数据实时性 Data Stream — VELOCITY

数据多样性 Different format of data different sources — VARIETY

数据不确定性 Uncertainty, missing value

第二章认识数据与数据预处理

复习提纲

1.属性类型
2.数据的统计描述
- 中心性
- - 均值
  - 众数
  - 中位数
  - 中列数
- 散度
- - 极差
  - 最大
  - 最小
  - 四分位
  - 百分位
  - 方差
3.相似性度量
- 标称 d(i, j) = #不同/#总
- 数值
- - 欧式
  - 曼哈顿
- 数据标准化/归化
- - 最大最小法
  - Z-Score
- 其他相似性
- - 余弦
  - 马
  - 相关子数
  - KL散度
4.数据预处理
清理 -> 集成 ->归约 -> 变换 -> 离散化
- 清理：缺值、噪声
- 集成：冗余分析、卡方检验
- 归约：采样 PCA/特征筛选（没太看懂
- 变换：最大最小法

1.属性类型

分类型
- 标称型
- 标称型目标变量的结果只在有限目标集中取值，比如真与假(标称型目标变量主要用于分类)
- - 例: ID 号、眼球颜色、邮政编码
- - 特殊：二元
- 序数型
- - 例: 军阶、 GPA、用 {tall, medium, short}表示的高
数值型
数值型目标变量则可以从无限的数值集合中取值，如0.555，666.666等 (数值型目标变量主要用于回归分析)
- 区间
- - 例: 日历、摄氏或华氏温度.
- 比率
- - 例: 开氏温度、长度、计数
**标称属性**的值是一些符号和事物的名称（比如头发的颜色）