数据仓库
数据仓库是==决策支持系统(dss)和联机分析应用数据源的结构化数据环境。==数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。
特点:数据仓库是面向主题的,是集成的,是不可更新的,随时间而变化的,但当有了稳定的数据以只读格式保存,且不随时间改变。数据仓库是汇总的,容量大,非规范化的,元数据,数据源。
数据仓库往往有如下几点特点:
- 效率足够高
- 数据质量
- 扩展性
- 面向主题
数据湖
数据湖还有以下特点:
- 从源系统导入所有的数据,没有数据流失。
- 数据存储时没有经过转换或只是简单的处理。
- 数据转换和定义schema 用于满足分析需求。
数据集市
数据集市可以理解为是一种"小型数据仓库",它只包含单个主题,且关注范围也非全局。数据集市可以分为两种:
- 一种是独立数据集市,这类数据集市有自己的源数据库和ETL架构;
- 另一种是非独立数据集市,这种数据集市没有自己的源系统,它的数据来自数据仓库。当用户或者应用程序不需要/不必要/不允许用到整个数据仓库的数据时,非独立数据集市就可以简单为用户提供一个数据仓库的子集。
数据集市是一个结构概念,它是企业级数据仓库的一个子集,主要面向部门级业务,并且只面向某个特定的主题。
数据治理
数据治理包含以下几方面内容:
- 确保信息利益相关者的需要评估,以达成一致的企业目标,这些企业目标需要通过对信息资源的获取和管理实现;
- 确保有效助力业务的决策机制和方向;
- 确保绩效和合规进行监督。
数据开发
离线开发,实时开发,交互式分析,图计算分析,机器学习
数据挖掘
数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。
数据挖掘过程模型:
- 定义问题
- 建立数据挖掘库
- 分析数据
- 准备数据
- 建立模型
- 评价模型
- 实施
ETL
数据仓库会周期不断地从源数据库提取清洗好了的数据,因此也被称为"目标系统"。ETL分别代表:
提取extraction
表示从操作型数据库搜集指定数据
转换transformation
表示将数据转化为指定格式,并进行数据清洗保证数据质量
加载load
加载过程表示将转换过后满足指定格式的数据加载进数据仓库。