仓库理论

仓库设计:
--划分主题域 (用户(员工、客户)、帖子、注册、报名、结算、其他(推送、浏览、im))
--增量、全量抽取明细数据
--报名整合(拓展到用户、帖子,整合底层,节省后期计算资源成本,不必每次关联,依旧是明细粒度)
宽表从字面意义上讲就是字段比较多的数据库表。通常是指业务主题相关的指标、维度、属性关联在一起的一张数据库表
st_date,user_id,post_id,用户注册来源,用户报名来源,ca_platform,帖子数据来源,用户状态,帖子类型(广告帖,包代招帖,普通帖),帖子创建日期,帖子是否在线,帖子城市(id,名称),是否有奖帖,报名状态
--主题报名(主题域包括渠道报名、城市报名、商业帖报名等主题)
--维度分析 (指标、应用)
--帖子整合 (拓展到用户、公司)


BI(dw\olap(cube)\dm): 
ods --抽取,操作型数据,直接决定仓库质量,operational data store
dwd --清洗转换整合,保证仓库质量,细节层,隔离业务和数仓 data warehouse detail
dw --简单数据沉淀,轻度加工,历史的,不可更新的,sum、count一下,减少后期条数
dm --面向主题按日、周、月、年统计分析指标
rpt、app --应用层直接使用(报表、查询、分析、挖掘)


ods:操作数据和历史数据的隔离层,可以更新,支持细节数据查询,减轻业务系统查询压力,细节层
dw:面向主题的,集成的,轻度汇总数据,不可更新,企业级的,包括各个主题,主题层
dm:某个主题域或某个部门的数据,一般是星型、雪花型结构(统一从数仓建设,避免数据孤岛,不一致),事实层
olap:维度(时间、地区) 层次(日月年、省市县) ,cube层


源数据层(ODS):此层数据无任何更改,直接沿用外围系统数据结构和数据,不对外开放;
细节层(DW):主题明细宽表、轻度汇总、跨主题域关联汇总、业务模型Cube;在此层看做口径的统一和沉淀,在此层之上可考虑建设信息中心(指标池)
应用层(DA):前端应用直接读取的数据源;根据报表、专题分析需求而计算生成的数据。


仓库建模:
范式建模:Inmon edw-dm 自下而上 先设计原子层数据仓库,再设计数据集市层  易维护,高度集成,周期长  企业级数据仓库--从不同部门、系统采集数据
维度建模:Kimball dm-dw 自上而下 先设计一致维度的数据集市,再组合集市成为仓库  难维护,集合困难,周期短  维度id + 度量  星型模型  粒度


宽表从字面意义上讲就是字段比较多的数据库表。通常是指业务主题相关的指标、维度、属性关联在一起的一张数据库表(各种维度、度量搞到一块)
与维度建模相比,数据冗余大,复用性差,优点是结果明了,拿来可用


DW层存在的目的,是提供长周期,更易访问的数据能力
ODS层经过了一定的清洗,比如字段的统一(男/女,m/f),脏数据的去除


分层目的:方便使用,提炼精华
excel:类似流水-透视图的过程
意义:矿石-精矿-利益    
应用:属性、标签、行为集合构成用户画像(推送、推荐、调研、营销、维系)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值