一、数仓介绍(了解)
数据仓库是由一整套体系构成,包含数据采集,数据存储,数据计算,数据展示等
数据仓库主要作用对过往的历史数据进行分析处理,为公司决策停供数据支撑。
1-1 数仓特征
-
面向主题
-
集成性
-
非易失性
-
时变性
1-2 OLTP和OLAP
OLTP(On-Line Transaction Processing)即联机事务处理,也称为面向交易的处理过程,
OLAP(On-Line Analytical Processing)即联机分析处理,有时也称为决策支持系统(DSS)
id | name | address | dt |
---|---|---|---|
1 | 张三 | 北京 | 2023-5-7 |
2 | 张三 | 上海 | 2024-2-2 |
1-3 ETL
ETL(Extra, Transfer, Load)包括数据抽取、数据转换、数据导入三个过程。
二、主题和主题域(了解)
2-1 主题和主题域介绍
主题
是对数据进行归类,每个分类是一个主题
主题域
根据分析的领域,将联系较为紧密的数据主题的集合在一起
主题域下面可以有多个主题,主题还可以划分成更多的子主题,主题和主题之间的建设可能会有交叉现象
2-2 主题域的划分
-
按照系统划分
-
生产系统 生产主题域
-
商品原材料库存核销数据 商品主题
-
订单主题
-
-
财务系统
-
商品原材料库存核销数据 商品主题
-
销售主题
-
-
人力系统
-
-
按照部门划分
-
人力部门 人力主题域
-
员工主题 员工数据
-
招聘主题 招聘数据
-
-
生产部门
-
销售部门
-
后勤部门
-
-
按照业务划分
-
门店零售业务
-
批发业务
-
团购业务
-
-
按照行业经验
-
银行证券业
-
当事人、产品、协议、事件、资产、财务、机构、地域、营销、渠道
-
-
甄选项目是按照业务功能划分主题域
核销 、售卖、会员、库存、订单
公司由数据分析师和数据产品经理根据公司业务场景设计主题,搭建分析的指标体系,形成指标文档
三、数据仓库和数据集市(理解熟悉)
数据集市
就是数据仓库
的一个子集,它主要面向部门级业务,并且只面向某个特定的主题数据集市由业务部门定义、设计和开发,业务部门进行管理和维护