数据仓库
文章平均质量分 59
很菜的小周
想从事大数据的菜鸟
展开
-
Flume拦截器
Flume日志过滤工具类。原创 2023-06-01 11:43:48 · 90 阅读 · 0 评论 -
维度退化及其优缺点、维度建模与范式
规范化的第三范式模型主要应用于操作型过程中,因为对事务的更新与插入仅触及数据库的某几行。总结:当一个维度没有数据仓库需要的任何数据的时候就可以退化此维度,需要把退化的相关数据迁移到事实表中,然后删除退化的维度。退化维度没有对应的维表,但可以获取与之相关的事实。操作型事务控制号码,例如:订单号码,发票号码,提货单号码通常产生空的维度,经常保存为事实表中的退化维度。退化维度是没有对应维度表的维度键。维度退化可以这样理解:将维度表中的维度退化到事实表中。原创 2023-03-30 20:10:32 · 1201 阅读 · 0 评论 -
UDF与UDTF
继承UDF类重写initialize()和evaluate()两个方法initialize()方法中主要进行输入数据的合法性判断(如果不进行判断的话可以不重写)因为前面存在服务器时间,不是一个规范的json字符串所以需要进行UDF重写。原创 2023-03-27 11:53:20 · 218 阅读 · 0 评论 -
关于“粒度”
数据量总是数据仓库中的首要问题,如果数据仓库的空间很有限的话,用高粒度级表示数据将比用低粒度级表示数据的效率要高得多。换句话说,在一个很低的粒度级上实际可以回答任何问题,但在高粒度级上,数据所能处理的问题的数量是有限的。粒度问题是设计数据仓库的一个重要方面,粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细节程度越高,粒度级别就越低。确定数据粒度是数据仓库设计的基础,当数据粒度合理确定后,设计和实现的其他问题就会变得非常容易,相反,如果没有合理地确定粒度,后续的工作就会很难进行下去。原创 2023-03-25 15:12:58 · 327 阅读 · 0 评论 -
事实表与维度表
区别原创 2023-03-25 14:33:09 · 227 阅读 · 0 评论 -
维度建模!
业务过程是通常表示的是业务执行的活动,与之相关的维度描述和每个业务过程事件关联的描述性环境。的业务线,比如下单业务,支付业务,退款业务,物流业务,一条业务线对应一张事实表。数据粒度指数据仓库的数据中保存数据的细化程度或综合程度的级别。事实表的设计完全依赖物理活动,不受最终报表的影响。粒度传递的是与事实表度量有关的细节级别。不同粒度的事实必须放在不同的事实表中。精确定义某个事实表的每一行表示什么。事实表通过外健关联与之相关的维度。健壮的维度集合来粉饰事实表。对事实表的粒度要达成共识。在业务系统中,挑选我们。转载 2023-03-23 20:22:26 · 495 阅读 · 0 评论 -
“维度”与“粒度”(转)
人们。转载 2023-03-23 20:11:28 · 408 阅读 · 0 评论 -
对于粒度的理解
从技术实现的角度来看,如果查询的粒度,是一个变量,而不是一个固定值,没法提前计算,只能临时用明细表算,这就叫做即系查询。通过例子理解:某个活动发布后,要查看不同时间区间内的累积活跃用户数,比如1-2号,3-5号,以便及时调整促活的策略。与此同时,我们也要谨防 “捡到锤子,看什么都像钉子”,没有能解决所有问题的方法和工具,特定场景,选用特定的工具。本人愚笨,看书好久,都没明白粒度的真正含义,被真实业务需求痛扁一顿后,我才体会到粒度的真正含义。那这个时候,统计就要升粒度了,并且,要去重。转载 2023-03-23 20:55:17 · 690 阅读 · 0 评论