【数仓统计】Spark hive SQL 统计数据分析一文全理解

每次面试的时候,大家最后都会问,我还有哪些方面需要提升的,需要关注哪方面的东西。

给大家的建议主要是技术测的提升建议,做技术一定要成体系化、并有深度。基于以上是写本文的原因。关于数仓技术-统计分析领域,由浅到深,依次为:

1.基础:会拖拉拽图表(精通Excel透视、熟练使用Showx、Tableau分析型工具)

2.小成:【本文重点】懂SQL、Hive SQL等基础统计语言,特别是开窗、上卷、调优能力=;【本文重点】熟练掌握各种统计逻辑,新老用户、留存模型、等差分组(连续模型:连续登录等场景),并且对。

3.精深:已经深入了解如何定位性能问题,并精通和掌握各类性能问题解决方法;对框架底层有体系化的了解,熟悉或精读某个框架模块的源码,例如Spark AQE,要了解如何评估倾斜键,以及决策异常如何解决,是否有升级空间,如何给开源贡献代码;【后面可以单独拎一篇文章来详细讲】

################################################################

言归正传:SQL统计体系是什么样子的,如何掌握;

1.粗读SQL各类关键字语法、以及常用函数,走到见到问题,心中了解如何解决,例如算两个内容的字符长度差异、计算URLDecode了解&等特殊符号处理(开源函数低版本bug),开窗函数lag、lead的应用(following等)、行转列、列转行等等基础的使用。

2.在已经掌握基础语法的前提下,多刷题;按照类别去耍,立扣和牛客网有一些题,进阶的一些要必回。这里我列一些新的题,个人总结而来,如果可以完美理解和熟练掌握,基本可以完成各类统计需求和面试题。

最新文档:有道云笔记

1.找出连续 3 天及以上领取的低碳排放量(lowcarbon)在 100 以上的用户

2.计算每个用户范围内从第一行到当前行tsdiff大于等于60的总个数(分组号)

3.计算每个用户最大的连续登录天数,可以间隔一天。解释:如果一个用户在 1,3,5,6 登录游戏,则视为连续 6 天登录

4、打折日期交叉问题

如下为平台商品促销数据:字段为品牌,打折开始日期,打折结束日期

计算每个品牌总的打折销售天数,注意其中的交叉日期,比如 vivo 品牌,第一次活动时间为 2021-06-05 到 2021-06-15,第二次活动时间为 2021-06-09 到 2021-06-21 其中 9 号到 15号为重复天数,只统计一次,即 vivo 总打折天数为 2021-06-05 到 2021-06-21 共计 17 天

5、同时在线问题如下为某直播平台主播开播及关播时间,根据该数据计算出平台最高峰同时在线的主播人数。

6.每日新增用户数

7.每日累计用户数

8.八、按购买时间统计出每天的新客人数和老客人数

如果需要原题可以看我分享的笔记,或者联系元星 Q9715234 ,努力称为一个优秀的数据者。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

未来星_狒狒

有问题随时交流Q9715234

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值