![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
离线数仓
文章平均质量分 88
集齐典型的应用场景,就能呼唤神龙
bluedraam_pp
不是有希望才坚持,是坚持才有希望
展开
-
再说连续性问题
连续问题是判断在某个期间,某些动作(状态)是否连续出现。在帖子连续性问题中, 已经提到了用户连续登录、最大假期等。这些问题的解法是使用大小等差数列相减的办法。其实还有一种算法可以解决此问题,它就是合并集办法。合并集往往使用在计算二维数组的连通性问题,例如,leetcode 的 friend-circle 和 island-size 两个问题。并查集能解决二维数组的问题,那么一维数组的问题一定也能完美解决,在之前文章中提到的连续性问题就是一维数组上的连通性问题。原创 2024-04-26 11:30:42 · 356 阅读 · 0 评论 -
空间换时间
数据拉宽日志变交叉表多表 join数据清洗预计算原创 2021-03-15 05:57:57 · 2419 阅读 · 0 评论 -
又来一道面试题——用 SQL 来写个小九九
题目要求使用 sql 写出 8 进制的小七七,如下图所示,题目分析什么就小七七,我只听说过小九九,哦,对了,我们之前小学的时候背诵过小九九,那是 10 进制,这样看来的话,我们就知道了,这个题目是让我们使用 8 进制下以内得乘法法则。先搞小九九sql 代码如下(hive版本),with detail as ( select explode( split(repeat(',',8),','))),detail_rn as ( select row_number() over() as rn原创 2020-10-03 22:05:25 · 149 阅读 · 0 评论 -
来道面试题
with detail as (select '18:30:00' as game_time , 'Lakers' as team_name, 'kebo' as player , 2 as scoreunion all select '18:31:05' as game_time , 'Lakers' as team_name , 'kebo' as player , 2 as scoreunion all select '18:31:21' as game_time , '76ers' as te原创 2020-07-14 20:26:32 · 311 阅读 · 5 评论 -
NBA 连胜连败用 SQL 如何写的
NBA 全队连胜连败记录请看下图中的“连胜/负”这一列。这列数据是如何计算出来的呢?今天咱就说个清清楚楚,明明白白。上代码with detail as ( select 'LA' as team_name , 1 as rs , '2020-01-01' as date_d union all select 'LA' as team_name , 1 as rs, '2020-01-02' as date_d union all select 'LA' as team_name , 0原创 2020-07-08 13:06:43 · 665 阅读 · 0 评论 -
拉链表应用——财务总账
需求原创 2020-07-08 08:32:47 · 726 阅读 · 0 评论 -
至今指标总结
*至今指标累加是什么全量如何计算整理如何计算增量和全量计算的优缺点分析原创 2020-07-03 15:52:51 · 2764 阅读 · 0 评论 -
数据中台的一些问题整理
需求调研阶段如何保证需要不漏、理解正确,减少不返工?如何描述清楚源数据中表的关联关系,使用什么工具和承载这个功能?设计阶段如何设计维表元数据解决了什么问题,如果没有思路,可以问一下详细的问题数据一致性的问题,包括指标口径不一致、测试问题数据复用提高取数效率降低学习成本统一管理元数据,避免团队数据孤岛保证数据质量,准(准时、准确)全(oneData),效果是数据用户敢用、放心用、用的有价值。如果要做一个数据中台的项目,我们应该如何设计组织架构。调度平台的核心功能:定时调度原创 2020-06-30 16:55:15 · 631 阅读 · 0 评论 -
SQL 刷题
题库来源题源leetcode180. 连续出现的数字题目请大家自己链接上的东西吧,下面是我写的解法。with detail as ( select 1 as id , 1 as num union all select 2 as id , 1 as numunion all select 3 as id , 1 as num union all select 4 ...原创 2020-03-29 19:36:00 · 912 阅读 · 0 评论 -
任务调度中常用 shell 命令
路径处理日期处理重试处理日志输出原创 2020-02-18 14:57:14 · 931 阅读 · 0 评论 -
hive 的几个优化参数
内存溢出1.2 GB of 1 GB physical memory used; 2.2 GB of 2.1 GB virtual memory used. Killing contain从字面意思来看,是数据量超过 map 或者 reduce task 的内存大小。所以 yarn 不得不讲整个任务杀死。最直接的解决办法是设置:set mapreduce.map.memory.mb=40...原创 2020-05-17 14:12:36 · 1899 阅读 · 0 评论 -
数据分析中的连续性问题
场景实现实现1with a as ( select * from ( select '2014-01-01' as date_ , '1' as is_holaday union all select '2014-01-02' as date_ , '0' as is_holaday union all select '2014-01-03' as date_...原创 2019-06-24 23:19:59 · 2732 阅读 · 0 评论 -
presto- top N、前 N 天销售额计算
场景描述统计前 28 天的销售额的平均值。统计 TOP N 商品随机分组原创 2019-06-10 10:15:03 · 2560 阅读 · 0 评论 -
SQL到底是如何开窗的
开窗函数的逻辑请看下面的例子,姑且叫这个表为dw.fct_sales,它有三个字段如下。我们只取里面三个字段月份、门店、销量。好多时候,当我们计算完每月每个门店的单量,还希望加一列,各个月份的汇总,如果我们能根据月份把数据分成两组,把每组的销量累计起来,放到最后一行,我们的需求不就实现了嘛!幸运的是个大 sql 平台都实现了这种功能。开窗,开窗,先让我们搞清楚什么是窗口。窗口就是一个字段的...原创 2019-02-26 09:49:56 · 2160 阅读 · 2 评论 -
数仓建设几个关键问题
数仓的职责以我当前的认知,数仓应该至少有以下几个职责:数据整合统一口径下面详细说说这两点。数据整合原创 2019-04-06 18:46:32 · 6529 阅读 · 5 评论 -
如何进行随机抽奖
抽奖逻辑说明在某个时段内,会员在超市内下单,就有机会得到超市派送的惊喜小礼物业务说明和价值说明在门店经营过程中,经常在一些节假日里面做一些抽奖活动,为门店带来线上或者线下的客流。客流的增加很容易带动销售额的上涨。抽奖也是的超市常用的促销手段。超市的主要商业场景随着智能手机的普及,超市越来越意识到 APP 在触达用户方面的优势,所以纷纷推出了自己的微信小程序或者独立的 APP。利用...原创 2019-01-24 22:55:23 · 1846 阅读 · 0 评论 -
会员留存的计算思路
需求以周为单位,三周为一个跟踪周期来计算每周会员留存率。例如 2018 第 23 周的留存率需要计算出如下的结果:23周24 周25 周50 个会员23 个会员24 个会员方法1利用子查询的方式来计算每周的留存率。类似下面的 sqlselect 'week1' as week_num ,count(distinct week1.member_i...原创 2018-12-05 21:55:36 · 1483 阅读 · 0 评论 -
多维分析——grouping set
根据 group_id 判断分组内字段原创 2018-06-12 18:38:59 · 8426 阅读 · 0 评论