仓库设计:
--划分主题域 (用户(员工、客户)、帖子、注册、报名、结算、其他(推送、浏览、im))
--增量、全量抽取明细数据
--报名整合(拓展到用户、帖子,整合底层,节省后期计算资源成本,不必每次关联,依旧是明细粒度)
宽表从字面意义上讲就是字段比较多的数据库表。通常是指业务主题相关的指标、维度、属性关联在一起的一张数据库表
st_date,user_id,post_id,用户注册来源,用户报名来源,ca_platform,帖子数据来源,用户状态,帖子类型(广告帖,包代招帖,普通帖),帖子创建日期,帖子是否在线,帖子城市(id,名称),是否有奖帖,报名状态
--主题报名(主题域包括渠道报名、城市报名、商业帖报名等主题)
--维度分析 (指标、应用)
--帖子整合 (拓展到用户、公司)
BI(dw\olap(cube)\dm):
ods --抽取,操作型数据,直接决定仓库质量,operational data store
dwd --清洗转换整合,保证仓库质量,细节层,隔离业务和数仓 data warehouse detail
dw --简单数据沉淀,轻度加工,历史的,不可更新的,sum、count一下,减少后期条数
dm --面向主题按日、周、月、年统计分析指标
rpt、app --应用层直接使用(报表、查询、分析、挖掘)
ods:操作数据和历史数据的隔离层,可以更新,支持细节数据查询,减轻业务系统查询压力,细节层
dw:面向主题的,集成的,轻度汇总数据,不可更新,企业级的,包括各个主题,主题层
dm:某个主题域或某个部门的数据,一般是星型、雪花型结构(统一从数仓建设,避免数据孤岛,不一致),事实层
olap:维度(时间、地区) 层次(日月年、省市县) ,cube层
源数据层(ODS):此层数据无任何更改,直接沿用外围系统数据结构和数据,不对外开放;
细节层(DW):主题明细宽表、轻度汇总、跨主题域关联汇总、业务模型Cube;在此层看做口径的统一和沉淀,在此层之上可考虑建设信息中心(指标池)
应用层(DA):前端应用直接读取的数据源;根据报表、专题分析需求而计算生成的数据。
仓库建模:
范式建模:Inmon edw-dm 自下而上 先设计原子层数据仓库,再设计数据集市层 易维护,高度集成,周期长 企业级数据仓库--从不同部门、系统采集数据
维度建模:Kimball dm-dw 自上而下 先设计一致维度的数据集市,再组合集市成为仓库 难维护,集合困难,周期短 维度id + 度量 星型模型 粒度
宽表从字面意义上讲就是字段比较多的数据库表。通常是指业务主题相关的指标、维度、属性关联在一起的一张数据库表(各种维度、度量搞到一块)
与维度建模相比,数据冗余大,复用性差,优点是结果明了,拿来可用
DW层存在的目的,是提供长周期,更易访问的数据能力
ODS层经过了一定的清洗,比如字段的统一(男/女,m/f),脏数据的去除
分层目的:方便使用,提炼精华
excel:类似流水-透视图的过程
意义:矿石-精矿-利益
应用:属性、标签、行为集合构成用户画像(推送、推荐、调研、营销、维系)
--划分主题域 (用户(员工、客户)、帖子、注册、报名、结算、其他(推送、浏览、im))
--增量、全量抽取明细数据
--报名整合(拓展到用户、帖子,整合底层,节省后期计算资源成本,不必每次关联,依旧是明细粒度)
宽表从字面意义上讲就是字段比较多的数据库表。通常是指业务主题相关的指标、维度、属性关联在一起的一张数据库表
st_date,user_id,post_id,用户注册来源,用户报名来源,ca_platform,帖子数据来源,用户状态,帖子类型(广告帖,包代招帖,普通帖),帖子创建日期,帖子是否在线,帖子城市(id,名称),是否有奖帖,报名状态
--主题报名(主题域包括渠道报名、城市报名、商业帖报名等主题)
--维度分析 (指标、应用)
--帖子整合 (拓展到用户、公司)
BI(dw\olap(cube)\dm):
ods --抽取,操作型数据,直接决定仓库质量,operational data store
dwd --清洗转换整合,保证仓库质量,细节层,隔离业务和数仓 data warehouse detail
dw --简单数据沉淀,轻度加工,历史的,不可更新的,sum、count一下,减少后期条数
dm --面向主题按日、周、月、年统计分析指标
rpt、app --应用层直接使用(报表、查询、分析、挖掘)
ods:操作数据和历史数据的隔离层,可以更新,支持细节数据查询,减轻业务系统查询压力,细节层
dw:面向主题的,集成的,轻度汇总数据,不可更新,企业级的,包括各个主题,主题层
dm:某个主题域或某个部门的数据,一般是星型、雪花型结构(统一从数仓建设,避免数据孤岛,不一致),事实层
olap:维度(时间、地区) 层次(日月年、省市县) ,cube层
源数据层(ODS):此层数据无任何更改,直接沿用外围系统数据结构和数据,不对外开放;
细节层(DW):主题明细宽表、轻度汇总、跨主题域关联汇总、业务模型Cube;在此层看做口径的统一和沉淀,在此层之上可考虑建设信息中心(指标池)
应用层(DA):前端应用直接读取的数据源;根据报表、专题分析需求而计算生成的数据。
仓库建模:
范式建模:Inmon edw-dm 自下而上 先设计原子层数据仓库,再设计数据集市层 易维护,高度集成,周期长 企业级数据仓库--从不同部门、系统采集数据
维度建模:Kimball dm-dw 自上而下 先设计一致维度的数据集市,再组合集市成为仓库 难维护,集合困难,周期短 维度id + 度量 星型模型 粒度
宽表从字面意义上讲就是字段比较多的数据库表。通常是指业务主题相关的指标、维度、属性关联在一起的一张数据库表(各种维度、度量搞到一块)
与维度建模相比,数据冗余大,复用性差,优点是结果明了,拿来可用
DW层存在的目的,是提供长周期,更易访问的数据能力
ODS层经过了一定的清洗,比如字段的统一(男/女,m/f),脏数据的去除
分层目的:方便使用,提炼精华
excel:类似流水-透视图的过程
意义:矿石-精矿-利益
应用:属性、标签、行为集合构成用户画像(推送、推荐、调研、营销、维系)