狼狈不堪的数据挖掘期末课程复习结束辽
给这门课程画上一个句号吧!
虽然之后主要方向是搞开发了 但是万一以后想去搞大数据捏~这是我总结的这门课程的部分章节内容
为了总结下这门课程所学 也让之后有缘找到的学弟学妹们(如果这个课还在的话)能更好地复习吧~
分享一下复习笔记
2021.6.23出了成绩来更新一波
最后这门课的成绩是89 简单了解了下 在班里大概算是中等水平吧?
期末考试中的好多题目在笔记里都是有体现的 (有复习需求的)大家可以下载下来 根据自己的理解进行增删 进行学习理解
没有复习需求的也可以看着玩玩hhh
下面的 只是一个概况
没有插图片(图片都在本地 一个个粘过来太麻烦惹!)
如果有兴趣的
可以戳这里下载完整的课程ppt与笔记
文章目录
题型
- 选择题——单选、多选
- 大题——2道计算题 大部分是简答题 最后一题是综合题
- 决策树的流程
- 聚类有哪些类型
- 数据挖掘的任务有哪些~
- 关联规则挖掘
- 分类/预测 与 回归
- 聚类分析
- 孤立点检测
第一章 数据挖掘与大数据简介
复习提纲
- 1.基本概念
-
- 什么是大数据
- 什么是数据挖掘
- 2.数据挖掘主要任务
- 3.KDD过程(数据挖掘是核心)
- 4.DM的挑战
1.基本概念
- 什么是大数据
无法在 一定时间内用常规软件工具 对其内容进行 抓取、管理、处理 的数据集合
是要更新处理模式才能具有更强的决策力、洞察发现力、流程优化能力 来适应海量、高增长率和多样化的信息资产
- 什么是数据挖掘
从大量的数据中挖掘那些 令人感兴趣的、有用的、隐含的、先前未知的、可能有用的 模式或知识。
关键是 “从大量的数据中挖掘令人感兴趣的模式或知识”
2.数据挖掘主要任务
【1】关联(规则)分析 如挖掘空气质量和气象条件之间的关系
【2】聚类分析 将数据归为不同的类 形成新的类别进行分析
【3】分类 预测 回归 找出描述和区分数据类或者概念的模型 让该模型可以预测未知的对象类标签
【4】离群点分析分析孤立而原本会被当作噪音丢弃的数据 在欺骗检测中通过孤立点分析得到的结论
这些内容之后章节都会讲到!
3.【重要!】KDD过程(知识发现过程)
最后一道题 的 一个思路
KDD : 从数据中获取知识
【1】数据清理:消除噪声和删除不一致数据
【2】数据集成:多种数据源可以组合在一起
【3】数据选择:从数据库中提取与分析任务相关的数据
【4】数据变换:把数据变换和统一成适合挖掘的形式
【5】数据挖掘 :核心步骤,使用智能方法提取数据模式
知识发现的核心!
【6】模式评估:根据兴趣度度量,识别代表知识的真正有趣的模式
【7】知识表示:使用可视化和知识表示技术,向用户提供挖掘的知识
注意 数据挖掘 是核心
4.数据挖掘的挑战
数据容量 Scale of Data
— VOLUMN
数据实时性 Data Stream
— VELOCITY
数据多样性 Different format of data different sources
— VARIETY
数据不确定性 Uncertainty, missing value
第二章 认识数据与数据预处理
复习提纲
- 1.属性类型
- 2.数据的统计描述
-
- 中心性
-
- 均值
- 众数
- 中位数
- 中列数
- 散度
-
- 极差
- 最大
- 最小
- 四分位
- 百分位
- 方差
- 3.相似性度量
-
- 标称
d(i, j) = #不同/#总
- 数值
-
- 欧式
- 曼哈顿
- 数据标准化/归化
-
- 最大最小法
- Z-Score
- 其他相似性
-
- 余弦
- 马
- 相关子数
- KL散度
- 标称
- 4.数据预处理
- 清理 -> 集成 ->归约 -> 变换 -> 离散化
-
- 清理:缺值、噪声
- 集成:冗余分析、卡方检验
- 归约:采样 PCA/特征筛选(没太看懂
- 变换:最大最小法
1.属性类型
- 分类型
-
- 标称型
- 标称型目标变量的结果只在有限目标集中取值,比如真与假(标称型目标变量主要用于分类)
-
- 例: ID 号、眼球颜色、邮政编码
-
- 特殊:二元
- 序数型
-
- 例: 军阶 、 GPA、用 {tall, medium, short}表示的高
- 数值型
- 数值型目标变量则可以从无限的数值集合中取值,如0.555,666.666等 (数值型目标变量主要用于回归分析)
-
- 区间
-
- 例: 日历、摄氏或华氏温度.
- 比率
-
- 例: 开氏温度、长度、计数
- **标称属性**的值是一些符号和事物的名称(比如头发的颜色)
标称:意味着“与名称相关”
-
二元属性 是标称的一种 1代表有 0代表没有
如果是对称的说明无权重(例如男女性别)
如果是非对称的说明有权重(例如检测结果为阴性/阳性)
数值属性:区间、比率
2.【重要!选填题】数据的统计描述
中心趋势度量:均值(中列数)、众数、中位数、 —— (中心性描述)
数据的散布:**极差、四分位数、四分位数极差、五数概括、盒图 **—— (散布描述)
中心趋势度量
- 均值(mean)
均值 = 总和/个数
加权平均:考虑权重的均值
-
- 中列数:
数据集的最大和最小值的平均值
- 中位数(median)
有序数据值的中间值。
大数据 :近似值估计(线性插值方法)
- 众数:(mode)
在集合中出现最频繁的值。(一个数据集中可能有多个众数)
对于非对称的单峰数据,有以下经验关系:
mean-mode ~ 3 * (mean-median)
即为 均值 - 众数 近似等于 3*(均值 - 中间数)
选填可能会考!
数据的散布
- 方差
- 标准差
- 极差
max-min
- 四分位数(quantile)
- 四分位数极差(距离)
IQR=Q3-Q1