数据仓库和数据挖掘复习
1. 名词解释
OLTP、OLAP、KDD、BI、ETL、CNN、RNN、GAN解释;
缩写 | 全称 | 功能 |
---|---|---|
OLTP | On-Line Transaction Processing 联机事务处理 | 记录事务时的当前更新,插入和删除 |
OLAP | On-Line Analytical Processing 联机分析处理 | 提取信息并进行分析以供决策 |
KDD | Knowledge Discovery in Database 知识发现 | 从原始数据中提炼出有意义的知识 |
BI | Business Intelligence 商业智能 | 用数据仓库、OLAP、数据挖掘、进行数据分析以实现商业价值 |
ETL | Extract, transform, load 抽取、转换、装载 | 将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程 |
CNN | Convolutional Neural Networks 卷积神经网络 | 图像识别 |
RNN | Recurrent Neural Network 循环神经网络 | 自然语言处理 |
GAN | Generative Adversarial Networks 生成式对抗网络 | 图像生成 |
2. 数据仓库概念
- 数据仓库的特征
数据仓库是面向主题的、集成的、时变的、非易失的数据集合,它用来支持管理部门的决策过程
- 数据仓库模型
数据仓库基于多维数据模型,以数据立方体的形式对数据进行观察。 - 维度:address、item、time都可以被看作一个维度,直观上来看维度是一个立方体的轴
- 维度成员:构成维度的基本单位,比如对于城市维,包含、温哥华、纽约、芝加哥、三个维度成员
- 层次:比如对于时间维,可以分为年、月、日三个层次,也可以分为年、季度、月三个层次。
- 级别:级别组成层次,比如年、月、日分别是时间维的三个级别
- 度量:一个数值函数,可以对数据立方体空间中的每个点求值。
- 事实表:存放度量值的表,同时存放了维表得外键,所有分析所用得数据最终都来自事实表。
- 维表:对于维度的描述,每个维度对应一个或多个维表。
数据立方体
一个n维的数据的立方体称为基本方体。给定一个维的集合,可以构造一个方体的格,每个都在不同的汇总级或不同的数据子集显示数据,方体的格称为数据立方体。0维方体存放最高层的汇总,称为顶点方体;存放在最底层汇总的方体称为基本方体。
多维数据模型的模式:
- 星形模式
中间事实表(粉色是三个度量),四个维度表
- 雪花模式
维表被规范化成两个新表
- 事实星座
两个事实表共享了time、item、location三个维表
度量函数分类
OLAP操作
- 数据仓库的多层结构
数据源 | 数据存储 | OLAP引擎 | 前端工具 |
---|---|---|---|
数据库或其他 | 数据仓库 | OLAP服务器 | 数据挖掘 |
3. 挖掘关联规则
基本概念
挖掘单维布尔关联规则的Apriori算法
改进-基于频繁模式树的算法
多维关联规则挖掘
4. 有监督学习(分类)
模型偏差与方差
区分模型和生成模型
决策树
K-最近邻分类(K-NN)
朴素贝叶斯分类器
极大后验假设:选概率最大的类
神经网络
几种激活函数,随时函数
凸集合凸函数凸优化、非凸优化