![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数仓
The Great Ant
做一个功成名就的人
展开
-
2021-06-21
如何分析用户活跃? 1.如何定义活跃 启动算一次活跃 下单算一次活跃 停留超过5s算活跃 ... 按照公司要求定义活跃 2.启动日志 在数仓项目中,使用dwd层的文件 查看启用日志不同设备的user_id去重获取用户活跃量 ...原创 2021-06-21 22:16:10 · 61 阅读 · 0 评论 -
2021-06-20
DWS层做了哪些事? 1.DWS层有3-5张宽表(处理100-200个指标 70%以上的需求) 具体宽表名称:用户行为宽表,用户购买商品明细行为宽表,商品宽表,购物车宽表,物流宽表、登录注册、售后等。 2.哪个宽表最宽?大概有多少个字段? 最宽的是用户行为宽表。大概有60-100个字段 3.具体用户行为宽表字段名称 CREATE EXTERNAL TABLE dws_user_action_daycount ( `user_id` STRING COMMENT '用户id', `login原创 2021-06-20 21:16:53 · 166 阅读 · 0 评论 -
2021-06-18
ODS层做了哪些事? 1)保持数据原貌,不做任何修改 2)压缩采用LZO,压缩比是100g数据压缩完10g左右。 3)创建分区表原创 2021-06-18 22:22:34 · 42 阅读 · 0 评论 -
2021-06-18
DWD层做了哪些事? 1.数据清洗 (1)空值去除 (2)过滤核心字段无意义的数据,比如订单表中订单id为null,支付表中支付id为空 (3)将用户行为宽表和业务表进行数据一致性处理 select case when a is null then b else a end as JZR, … from A 2.清洗的手段 HQL、MR、SparkSQL、Kettle、Python(项目中采用sql进行清除) 3. 清洗掉多少数据算合理 1万条数据清洗掉1条。 4.原创 2021-06-18 22:18:34 · 73 阅读 · 0 评论 -
2021-06-17
DWS层 DWS层统计各个主题对象的当天行为,服务于DWT层的主题宽表。如图所示,DWS层的宽表字段,是站在不同维度的视角去看事实表,重点关注事实表的度量值,通过与之关联的事实表,获得不同的事实表的度量值。 ...原创 2021-06-17 21:47:39 · 45 阅读 · 0 评论 -
2021-06-17
DWT层 以分析的主题对象为建模驱动,基于上层的应用和产品的指标需求,构建主题对象的全量宽表。原创 2021-06-17 21:46:54 · 47 阅读 · 0 评论 -
2021-06-16
DWD层 DWD层需构建维度模型,一般采用星型模型,呈现的状态一般为星座模型。 维度建模一般按照以下四个步骤: 选择业务过程→声明粒度→确认维度→确认事实 (1)选择业务过程 在业务系统中,如果业务表过多,挑选我们感兴趣的业务线,比如下单业务,支付业务,退款业务,物流业务,一条业务线对应一张事实表。如果小公司业务表比较少,建议选择所有业务线。 (2)声明粒度 数据粒度指数据仓库的数据中保存数据的细化程度或综合程度的级别。 声明粒度意味着精确定义事实表中的一行数据表示什么,应该尽可能选择最小粒度,以此来应各种原创 2021-06-16 22:08:27 · 134 阅读 · 0 评论 -
2021-06-16
ODS层 (1)保持数据原貌不做任何修改,起到备份数据的作用。 (2)数据采用压缩,减少磁盘存储空间(例如:原始数据100G,可以压缩到10G左右) (3)创建分区表,防止后续的全表扫描原创 2021-06-16 22:05:12 · 47 阅读 · 0 评论 -
2021-06-09
事实表的分类 事务型事实表:如果一类事实,一旦发生,就不会变化。记录这类事实的表,称为事务型事实表! 这个表的特点是表中的数据只会不断新增,不会发生修改! 举例: 支付信息详情表! 事务型事实表 在同步数据时,只同步当天新增的数据! 周期型快照事实表:如果某个事实,在一个周期内会不断发生变化,只需要记录在周期结束时,事实的状态,此时这类表称为 周期型快照事实表! 举例: 记录一个人身高生长的事实 人 时间 身高 jack 2020-1原创 2021-06-09 08:38:20 · 58 阅读 · 0 评论 -
2021-05-26
Sqoop导入导出Null存储一致性问题 Hive中的Null在底层是以“\N”来存储,而MySQL中的Null在底层就是Null,为了保证数据两端的一致性。在导出数据时采用–input-null-string和–input-null-non-string两个参数。导入数据时采用–null-string和–null-non-string。 ...原创 2021-05-26 22:01:45 · 57 阅读 · 0 评论 -
2021-05-26
数仓数据的管理 1.数仓中使用的哪种文件存储格式 常用的包括:textFile,rcFile,ORC,Parquet,一般企业里使用ORC或者Parquet,因为是列式存储,且压缩比非常高,所以相比于textFile,查询速度快,占用硬盘空间少 2.哪张表最费时间,有没有优化 用户行为宽表,数据量过大。数据倾斜的相关优化手段。(hadoop、hive、spark) 3.哪张表数据量最大,是多少 用户行为数据:100g(1亿条)/5 = 2千万 * 2-3倍 动作、曝光、页面故障、启动 业务数据:详情(20原创 2021-05-26 22:01:05 · 116 阅读 · 0 评论 -
2021-04-22
数仓概念 数据仓库的输入数据源和输出系统分别是什么? 输入系统:埋点产生的用户行为数据、JavaEE后台产生的业务数据、个别公司有爬虫数据。 输出系统:报表系统、用户画像系统、推荐系统 ...原创 2021-04-22 19:07:20 · 71 阅读 · 0 评论