1.问题来源
一般来讲,系统可以分为以下三部分:
例如:在进行用户变现时,对用户进行精准推荐时,整合用户资源就显得极为重要,但是此时针对用户管理系统可以做成ECIF(Enterprise Customer Information Facility 企业用户管理信息系统)——用户信息的数据集市。
根据维度建表时,例如用户信息表,要是ECIF(数据集市),则分开创建。
如何把一个人唯一表示?
姓名?X 证件类型+证件号码
用户信息:基本信息+联系信息+证件信息+财产+...(可参考星型结构和雪花结构)
2.数仓
问题:组织规模变大时,子系统变多时,数据信息不对称,全量拉取数据则冗余较多。分享者曾在某P2P,共有40个子系统。
另例:宜信包含了以下业务群:P2P线下、宜人贷、基金、保险、移民等
而对于订单与合同,二者具有高度相似性,基本格式都是“在某个时间,某人,买某产品,用去多少钱”。因此其实可以建立单表。
对于合同:
收入来自客户:画像、分级(集团、大区、城市、门店)
广义成本:人力费用、狭义成本
利润=收入-成本——毛利 = 利润-狭义成本
净利 = 毛利-狭义成本-人力费用=毛利-广义成本
因此数据仓库产生
ods(Operational Data Store)原始数据层 与数据源的数据同构 E主要 抽取
dw(Data Warehouse)轻度汇总,明细层 ETL提取转换加载 异构的变化 T占主要 起源于银行保险 业务种类比较多
dws(Data Warehouse Service) 汇总层 报表层
aws(Analysis我猜的 Warehouse Service)对外提供服务 videology
3.本公司的数据仓库
信息:客户信息、用户行为、用户付费、渠道、活动营销、任务体系、B端教师
用户类型:学生、教师、家长、小学
用户的阶段不一样,用户习惯不一样——引导性学习、自主性学习
- 拆表 整表
若小初高用户都是5000万,增加change表关联用户唯一标识。此思想可移植(相似性,所有公司订单表)
- 课程、真人秀、习题 规划成一个表
补充:数据仓库和数据集市的区别?
数据集市是基于主题的,主题下的所有表都是同一类型的表
补充:
2019订单、家长、小学
实收、到账 实收>到账 线下渠道中注册用户所属班属于哪个业务群就是哪个群的 代理商—老师合作