第一章 数据挖掘学习入门之OLAP的概念
文章目录
前言
从数据仓库的角度来看,数据挖掘可以看作是联机分析处理(OLAP)的高级阶段。相反,如果要进行数据挖掘,OLAP是其始终绕不开的一部分,因为只有更具专业性的服务器,才能发现隐藏在大量数据下的规律和有趣现象。OLAP服务器存放着来自数据仓库或数据集市的多维数据,它不必关心数据如何存放和存放在何处,它只需要关心数据的汇总以及聚集。我们要了解OLAP,就得先了解一下数据仓库。
一、数据仓库
数据仓库分为ADS层、DW层和ODS层
ADS( Application Data Store)层:应用数据层,指数据实际来源,DWS层接受来自ADS层数据并对其进行格式转换、清洗和存储等工作。
DW(Data Warehouse)层:数据仓储 OLAP产生的明细表和预聚合表都存储于此。
ODS(Operational Data Store)层:包括业务数据、日志等,在介绍ODS之前,还需引入DB这一概念,DB是传统数据库,处理的是一般的事务型数据,而DW处理的是分析型数据,然而有一些事务型数据不适合用DB,有一些分析型数据不适合用DW,所以就产生了新的存放数据的仓库—ODS,ODS介于DB和DW之间,组合形成了DB&ODS&DW三层数据架构,其中,ODS&DW为数据仓库,而DB是传统数据库,DW有OLAP,而DB也有对应的OLTP【事务查询系统On-Line Transaction Processing】 处理的是业务逻辑中产生的具体事务,比如买票过程中,每次的账号注册、登录、购票过程中,都是在与DB打交道,每一次这样的操作都是一次OLTP 。
图1 OLTP与OLAP的对比
常见OLAP操作:
上卷(Roll Up):选取某一维度,将其聚合
下钻(Drill Down):选取某一维度,将其拆解【group by】
切片(Slicing):根据选取值过滤掉其他值,只分析特定维度的值
旋转(Rotate):维度位置的交换
二、OLAP是什么?
OLAP指向数据仓库中的DW层。OLAP(On-line Analytical Processing 联机分析处理)是一种基于查询功能的计算机数据处理技术,大多数情况下是为数据分析和数据挖掘而服务的。OLAP把SQL语句中的query独立出来,并进一步根据应用场景细分为关系数据模型和多维数据模型。[1]
虽然数据库拥有CRUD四个功能,但是对数据进行‘增删改‘不是数据分析师的工作而是数据库工程师的工作,数据分析对于数据一般只有查询的需求。
图2 OLAP的划分(图中红圈为Tableau/PowerBI支持的OLAP)

本文介绍了OLAP(联机分析处理)在数据挖掘中的重要性,详细解释了数据仓库的层次结构、ROLAP、MOLAP和HOLAP的区别,以及它们在实际应用中的优缺点。讨论了OLAP引擎的选择策略,重点关注查询速度和并发性能。
最低0.47元/天 解锁文章
639

被折叠的 条评论
为什么被折叠?



