2021-06-30

最新推荐文章于 2024-07-28 16:45:11 发布

A rctic

最新推荐文章于 2024-07-28 16:45:11 发布

阅读量138

点赞数

文章标签：大数据

本文链接：https://blog.csdn.net/X_P_LI/article/details/118371155

版权

数据挖掘复习

第1章——绪论
第2章——数据挖掘的过程
- 数据挖掘模型
- - 一、三阶段过程模型
第3章——数据准备
第4章——数据挖掘
- 数据探索
第5章——关联分析
- 模型选择

第1章——绪论

1.大数据的四个特点（4v）种类多、体量大、产生速度快、价值密度低
2.2011年是大数据元年，最早出现于20世纪90年代，数据仓库之父BIll Inmon提起
3.什么是数据挖掘：从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在的有用的信息和知识的过程。
4.数据挖掘的主要方法有：分类、聚类、相关规则、回归和其他方法。

第2章——数据挖掘的过程

1、数据分析能力的八个等级：常规报表、即席查询、多维分析、警报、、统计分析、预报、预测模型、优化。

数据挖掘模型

一、三阶段过程模型

第3章——数据准备

数据收集

数据抽样

* 简单随机抽样：完全随机地从原始数据中抽取一定数量的样本。
		* 简单无放回抽样
   		* 简单有放回抽样
 * 系统抽样
	 	* 对数据排序并编号
		* 基于一定规则（距离）
 * 分层抽样：把调查总体分为同质的、互不交叉的层（或类型），然后在各层（或类型）中独立抽取样本。
 		* 层内同质性
 		* 层间异质性 
 * 整群抽样
 		* 组内差异大
 		* 组间差异小

数据集成

	- 面临的问题
		- 异构性：包括系统异构、数据模式异构和数据异构
		- 分布性
		- 自治性
		- 完整性
	- 解决方案
		- 数据仓库
			- ETL物理上的聚集方式：ETL吉数据的抽取、转换、装载的过程，是构建数据仓库的一个典型过程，是一种批处理方法。
		- 数据联邦（数据联合）：是一种基于数据查询操作，从不同的数据源完成数据汇集，并构成一个虚拟化的数据库的数据集成方法。
			- 虚拟化/逻辑上的聚集方式
		- 中间件：通过统一的全局数据模型来访问异构的数据库、遗留系统、Web资源等。

数据清理：发现并纠正数据文件中可识别的错误的过程。

	- 残缺数据、错误数据、重复数据、异义数据

数据规约

	- 常用的数据规约方法：违规约、数据压缩、数值规约、离散化和概念分层以及数据变换。
	- *违规约：*通过删除不相关的属性（或维）以减少数据集的复杂度和数据量。

数据变换

第4章——数据挖掘

数据探索

- 可视化
- 统计分析
	- 集中量数
		- 频率
		- 中位数
		- 均值
		- 众数
	- 差异量数
		- 极差（全距）
		- 标准差
		- 四分位差
			- 上四分位差 ——Q=（n-1）*0.75+1（n为数据个数）
			- 下四分位差——Q=（n-1）*0.25+1
		- MAE（平均绝对误差）
		- MAD(中位数绝对偏差)
	- 相关性量数 	
		- 协方差/矩阵
		- 相关系数/矩阵

第5章——关联分析

基本概念

集合
- 事务集：数据集
- 项集：大于支持度阈值——频繁项集（反之亦然）
支持度/计数
置信度：dangxiangj
关联规则

模型选择

聚类
关联规则
- Apriori
  - 先验原理
    - 如果一个项集是频繁的，则他的所有子集都是频繁的
    - 如果一个项集是非频繁的，则他的所有超集都是非频繁的
  - 算法过程
    - 生成频繁项集
      - Fk-1*Fk-1——合并规则——当且仅当两个有序Fk-1项集中的前k-2项相同且第k-1项不同时
      - F1*Fk-1
    - 生成关联规则
- FP-Growth
分类
回归

3.解释评估

二、SEMIMA模型：

三、5A模型：

四、CRISP-DM模型：CRoss Industry Standard Process for Data Mining的缩写，即跨行业数据挖掘过程标准。

A rctic

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2021-06-30

数据挖掘复习#第1章——绪论1.大数据的四个特点（4v）种类多、体量大、产生速度快、价值密度低2.2011年是大数据元年，最早出现于20世纪90年代，数据仓库之父BIll Inmon提起3.什么是数据挖掘：从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在的有用的信息和知识的过程。4.数据挖掘的主要方法有：分类、聚类、相关规则、回归和其他方法。#第2章——数据挖掘的过程1、数据分析能力的八个等级：常规报表、即席查询、多维分析、警报、、统计
复制链接

扫一扫