2021-06-30

第1章——绪论

1.大数据的四个特点(4v)种类多、体量大、产生速度快、价值密度低
2.2011年是大数据元年,最早出现于20世纪90年代,数据仓库之父BIll Inmon提起
3.什么是数据挖掘:从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的有用的信息和知识的过程。
4.数据挖掘的主要方法有:分类、聚类、相关规则、回归和其他方法。

第2章——数据挖掘的过程

1、数据分析能力的八个等级:常规报表、即席查询、多维分析、警报、、统计分析、预报、预测模型、优化。

数据挖掘模型

一、三阶段过程模型

第3章——数据准备

数据收集

数据抽样

* 简单随机抽样:完全随机地从原始数据中抽取一定数量的样本。
		* 简单无放回抽样
   		* 简单有放回抽样
 * 系统抽样
	 	* 对数据排序并编号
		* 基于一定规则(距离)
 * 分层抽样:把调查总体分为同质的、互不交叉的层(或类型),然后在各层(或类型)中独立抽取样本。
 		* 层内同质性
 		* 层间异质性 
 * 整群抽样
 		* 组内差异大
 		* 组间差异小 

数据集成

	- 面临的问题
		- 异构性:包括系统异构、数据模式异构和数据异构
		- 分布性
		- 自治性
		- 完整性
	- 解决方案
		- 数据仓库
			- ETL物理上的聚集方式:ETL吉数据的抽取、转换、装载的过程,是构建数据仓库的一个典型过程,是一种批处理方法。
		- 数据联邦(数据联合):是一种基于数据查询操作,从不同的数据源完成数据汇集,并构成一个虚拟化的数据库的数据集成方法。
			- 虚拟化/逻辑上的聚集方式
		- 中间件:通过统一的全局数据模型来访问异构的数据库、遗留系统、Web资源等。

数据清理:发现并纠正数据文件中可识别的错误的过程。

	- 残缺数据、错误数据、重复数据、异义数据 

数据规约

	- 常用的数据规约方法:违规约、数据压缩、数值规约、离散化和概念分层以及数据变换。
	- *违规约:*通过删除不相关的属性(或维)以减少数据集的复杂度和数据量。 

数据变换

第4章——数据挖掘

数据探索

- 可视化
- 统计分析
	- 集中量数
		- 频率
		- 中位数
		- 均值
		- 众数
	- 差异量数
		- 极差(全距)
		- 标准差
		- 四分位差
			- 上四分位差 ——Q=(n-1)*0.75+1(n为数据个数)
			- 下四分位差——Q=(n-1)*0.25+1
		- MAE(平均绝对误差)
		- MAD(中位数绝对偏差)
	- 相关性量数 	
		- 协方差/矩阵
		- 相关系数/矩阵

第5章——关联分析

基本概念

  • 集合
    • 事务集:数据集
    • 项集:大于支持度阈值——频繁项集(反之亦然)
  • 支持度/计数
  • 置信度:dangxiangj
  • 关联规则

模型选择

  • 聚类
  • 关联规则
    • Apriori
      • 先验原理
        • 如果一个项集是频繁的,则他的所有子集都是频繁的
        • 如果一个项集是非频繁的,则他的所有超集都是非频繁的
      • 算法过程
        • 生成频繁项集
          • Fk-1*Fk-1——合并规则——当且仅当两个有序Fk-1项集中的前k-2项相同且第k-1项不同时
          • F1*Fk-1
        • 生成关联规则
    • FP-Growth
  • 分类
  • 回归
3.解释评估

二、SEMIMA模型:

三、5A模型:

四、CRISP-DM模型:CRoss Industry Standard Process for Data Mining的缩写,即跨行业数据挖掘过程标准。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值