3、数仓主题分析
3.1 什么是数仓
面向主题(针对某一维度)、集成的(数据统一集中管理的)、相对稳定的(相对业务系统数据变动较小的)、反映历史变化(反映出业务或用户行为动态变化的过程)的数据集合,作为用户画像、推荐系统或业务运营管理决策的基础。
数仓的引入主要是为了做联机或离线数据分析,一方面是对业务系统分析系统的解耦,减少因大量数据运算而影响正常的业务系统运行,另一方面是可以解决普通数据库数据存储极限问题。
3.2 ETL: 数据迁移(抽取、转换、加载)
🏗 是联机数据处理、数据挖掘的基础,负责将分布的数据源抽取到中间层进行清洗、转换、集成,最后加载进数据仓库或数据集市中的过程。
主要是一些基础工具的使用。如:Datastage(IBM,专业、价格高), Infomatica(商业版), 开源的Kettle(水壶)
3.3 数仓分析主题
针对某个主题(中心)展开的分析。
(更多不同行业的主题可以参照神策的各种行业指标即可。)
如:
用户分析主题:
日新统计报表:每日新用户
日活统计报表:每日用户活跃
留存分析报表
来源分析报表等
流量分析主题pv(page view)
pv概况统计报表
pv来源分析报表
pv热点页面分析报表
pv热点栏目分析报表等
app分析主题
app版本分布统计表
app升级情况统计报表等
GMV销量分析主题(总成交金额)
gmv总额统计表
gmv品类统计报表
gmv品牌统计报表
gmv增长趋势报表等
以电商数仓为例:总体运营、网站流量、销售转化、客户价值、商品品类、营销活动、风控、竞品分析为主题为指导数仓的建设指标