很菜的小周-CSDN博客

原创 Spark总结

spark包括Spark Core最基础，最核心的功能，Spark SQL操作结构化数据的组件机器学习算法库。

2023-08-24 13:36:37 109 1

原创 Hadoop总结

HDFS包括Yarn包括Hadoop1.x包括Hadoop2.x包括。

2023-08-22 12:05:28 133 1

原创 spark实时项目session模块代码

【代码】spark实时项目session模块代码。

2023-08-19 17:37:34 137

规范化的第三范式模型主要应用于操作型过程中，因为对事务的更新与插入仅触及数据库的某几行。总结：当一个维度没有数据仓库需要的任何数据的时候就可以退化此维度，需要把退化的相关数据迁移到事实表中，然后删除退化的维度。退化维度没有对应的维表，但可以获取与之相关的事实。操作型事务控制号码，例如：订单号码，发票号码，提货单号码通常产生空的维度，经常保存为事实表中的退化维度。退化维度是没有对应维度表的维度键。维度退化可以这样理解：将维度表中的维度退化到事实表中。

2023-03-30 20:10:32 1352

原创计算用户的平均次日、三日和七日留存率

用户平均三日留存率：第一天登录了，第三天也登录的用户(不需要三天连续登录，只需要在第一天和第三天都登陆的用户就是三日留存用户)用户平均七日留存率：第一天登录了，第七天也登录的用户(不需要七天连续登录，只需要在第一天和第七天都登陆的用户就是七日留存用户)用户平均次日留存率：第一天登录了，第二天也登录的用户。首先弄清楚用户平均次日、三日和七日留存率的概念。

2023-03-29 13:15:49 1620 1

原创 JZ23 链表中环的入口结点

快慢指针可以很容易判断一条链表是否存在环，快指针fast每次走两步，慢指针slow每次走一步，那么若进入环中，每次他们之间的相对距离都会-1，直到两者相遇。所以，我们把快指针移到头结点，一次走一步，让慢指针继续走，当两个指针再次相遇时所处的位置就是环的入口结点位置。假设从头结点到环入口结点的前一个结点有：a个。(n为快指针比慢指针多走过的圈数)fast指针走过的结点数为：f个。slow指针走过的结点数为：s个。两指针相遇时，慢指针已经走了。而走到入口结点，需要走。

2023-03-27 14:55:26 42

原创 UDF与UDTF

继承UDF类重写initialize()和evaluate()两个方法initialize()方法中主要进行输入数据的合法性判断(如果不进行判断的话可以不重写)因为前面存在服务器时间，不是一个规范的json字符串所以需要进行UDF重写。

2023-03-27 11:53:20 225

原创 shell编程总结

shell设计者已经设置好的可以直接使用的变量$$：当前进程的进程号(PID)：后台运行的最后一个进程的进程号(PID)：最后一次执行的命令的返回状态。如果这个变量的值为0，证明上一个命令正确执行;如果这个变量的值为非0(具体是哪个数，由命令自己来决定)，则证明上一个命令执行不正确了。

2023-03-26 14:09:10 66

原创数仓面试题自我总结

通过数据分层管理可以简化数据清洗的过程，因为把原来一步的工作分到了多个步骤去完成，每一层的处理逻辑都相对简单和容易理解，从而达到解耦的目的，这样我们比较容易保证每一个步骤的正确性，当数据发生错误的时候，方便问题排查和追溯定位。那就多一层DWT层做汇总，多一层解耦，业务变化的时候，我们只改DWS层就好了，最多穿透到DWT层。可以在数仓通用分层架构上，增加一层DM层，也就是数据集市层，各个数据集市层，单独供数，甚至有单独的计算资源，这样可以避免因为计算任务代码混在一起、数据权限拆分等问题带来的数据变更成本。

2023-03-26 10:33:22 228

原创关于“粒度”

数据量总是数据仓库中的首要问题，如果数据仓库的空间很有限的话，用高粒度级表示数据将比用低粒度级表示数据的效率要高得多。换句话说，在一个很低的粒度级上实际可以回答任何问题，但在高粒度级上，数据所能处理的问题的数量是有限的。粒度问题是设计数据仓库的一个重要方面，粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细节程度越高，粒度级别就越低。确定数据粒度是数据仓库设计的基础，当数据粒度合理确定后，设计和实现的其他问题就会变得非常容易，相反，如果没有合理地确定粒度，后续的工作就会很难进行下去。

2023-03-25 15:12:58 359

原创事实表与维度表

区别

2023-03-25 14:33:09 271

转载对于粒度的理解

从技术实现的角度来看，如果查询的粒度，是一个变量，而不是一个固定值，没法提前计算，只能临时用明细表算，这就叫做即系查询。通过例子理解：某个活动发布后，要查看不同时间区间内的累积活跃用户数，比如1-2号，3-5号，以便及时调整促活的策略。与此同时，我们也要谨防 “捡到锤子，看什么都像钉子”，没有能解决所有问题的方法和工具，特定场景，选用特定的工具。本人愚笨，看书好久，都没明白粒度的真正含义，被真实业务需求痛扁一顿后，我才体会到粒度的真正含义。那这个时候，统计就要升粒度了，并且，要去重。

2023-03-23 20:55:17 770

转载维度建模！

业务过程是通常表示的是业务执行的活动，与之相关的维度描述和每个业务过程事件关联的描述性环境。的业务线，比如下单业务，支付业务，退款业务，物流业务，一条业务线对应一张事实表。数据粒度指数据仓库的数据中保存数据的细化程度或综合程度的级别。事实表的设计完全依赖物理活动，不受最终报表的影响。粒度传递的是与事实表度量有关的细节级别。不同粒度的事实必须放在不同的事实表中。精确定义某个事实表的每一行表示什么。事实表通过外健关联与之相关的维度。健壮的维度集合来粉饰事实表。对事实表的粒度要达成共识。在业务系统中，挑选我们。

2023-03-23 20:22:26 571

qq_45810187的博客