数据分层
The Great Ant
做一个功成名就的人
展开
-
2021-05-06
ODS层 (1)保持数据原貌不做任何修改,起到备份数据的作用。 (2)数据采用压缩,减少磁盘存储空间(例如:原始数据100G,可以压缩到10G左右) (3)创建分区表,防止后续的全表扫描原创 2021-05-06 22:02:55 · 35 阅读 · 0 评论 -
2021-05-05
DWS层做了哪些事? 1 DWS层有3-5张宽表(处理100-200个指标 70%以上的需求) 具体宽表名称:用户行为宽表,用户购买商品明细行为宽表,商品宽表,购物车宽表,物流宽表、登录注册、售后等。 2 哪个宽表最宽?大概有多少个字段? 最宽的是用户行为宽表。大概有60-100个字段 3 具体用户行为宽表字段名称 评论、打赏、收藏、关注–商品、关注–人、点赞、分享、好价爆料、文章发布、活跃、签到、补签卡、幸运屋、礼品、金币、电商点击、gmv CREATE TABLE `app_usr_i原创 2021-05-05 20:40:24 · 347 阅读 · 0 评论 -
2021-05-05
DWD层做了哪些事? 1 数据清洗 (1)空值去除 (2)过滤核心字段无意义的数据,比如订单表中订单id为null,支付表中支付id为空 (3)将用户行为宽表和业务表进行数据一致性处理 select case when a is null then b else a end as JZR, … from A 2 清洗的手段 HQL、MR、SparkSQL、Kettle、Python(项目中采用sql进行清除) 3 清洗掉多少数据算合理 1万条数据清洗掉1条。 4 脱原创 2021-05-05 20:39:34 · 88 阅读 · 0 评论