数据仓库知识点学习
数据仓库理论知识
数据仓库是什么
数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化的(Time Variant)数据集合,用于支持管理决策。
为什么要建立数据仓库
大数据量分析的快速响应/为分析决策提供集成、包含历史的数据/提供业务人员更能接收的使用方式。
数据仓库核心概念
-
数据仓库模型
-
ETL
ETL导出/接入:DB、FTP、Kafka、MongoDB接入
ETL清洗、转换、加载 -
数据集市(Data Mart)、元数据(metadata)
-
OLAP
OLAP(联机分析处理)是技术是快速响应多维(Multidimensionalanalysis, MDA)的一种解决方案。其中,多维分析是一 种数据分析过程,过程中,将数据分成两类:维度(dimensions)和度 量 (metrics/measurements)。维度指能够描述某个空间中所有点的最少坐标 (coordinate)数,即空间基数;度量指的是无向图中顶点(vertices)间的距离。 -
即席查询/全文检索
即席查询:
select a.user_id,a.‘type‘,a.‘name‘,a.row_num
From(
Select user.id,concat_ws(‘_‘,access_system,‘user‘)as ‘type‘,strip_text(user_name)as ‘name‘,row_number() over(partition by user_id order by user_id,bsn_tm desc)as row_num