离线电商数仓学习笔记01-数仓概念及架构设计
数仓概念
数据仓库(Data Warehouse)是为企业所有部门决策制定过程,提供所有系统数据支持的数据集合。与数据仓库相类似的集合叫数据集市(Data Mart),它是满足特定部门或者用户的需求,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体。
数据仓库并不是数据的最终目的地,而是为数据最终目的地做好准备。准备包括对数据的:清洗、转义、分类、重组、合并、拆分、统计等。
数仓概念图如上所示,数据来源主要为日志采集系统、业务系统数据库、爬虫系统等,经过ETL数据清洗储存在数据仓库中,并为报表系统、用户画像、推荐系统等提供数据支持与服务。
数仓架构
技术选型
数据采集传输:Flume,Kafka,Sqoop
数据储存:Mysql,HDFS
数据计算:Hive,Tez,Spark
数据查询:Pre