hive sql面试题
文章平均质量分 56
不间断更新hive sql面试题,带你掌握最优、最有技巧sql
不想起的昵称
努力努力再努力
展开
-
hive经典面试题7--数据缺失如何通过现有数据填补
背景:在公司很多业务中,都会涉及数据处理。其中一项数据处理,就是补缺数据。例如:公司正在投放某个项目,在不同的平台不同的时间投放的成本不一样。由于某些原因,造成打点的成本数据缺失。这时我们就需要通过一定的策略将数据补上。1.需求:通过两种策略补数据,补完的数据取平均值,作为要填补的投放成本补数据策略1:同一个平台取最近一次投放的有效成本(上一次投放的有效成本)(有效成本:成本不为空)补数据策略2:取同一个平台紧接着一次投放的有效成本(下一次投放的有效成本)结果数据如下:2.数据准备-原创 2022-02-28 16:09:44 · 2465 阅读 · 0 评论 -
hive经典面试题6--对数去重([A,B],[B,A])算一对,改怎么处理
背景:在很多业务中,都涉及到对数去重。例如:A和B建联,记了一条数据[A,B],B又和A建联,又记了一条数据[B,A]。这两条记录,只是记录的顺序不一致,人还是A、B两个人,在业务中,这只算一对。...原创 2022-01-06 14:10:13 · 1331 阅读 · 0 评论 -
hive经典面试题5--近实时数据处理方案
背景:Flink在各大社区、技术类博客活跃的背景下,其实很多小公司并不会花很多时间去尝试实时处理数据,反而更加倾向于近实时处理数据。你可能会说,这个公司真传统。如果站在数据稳定、数据质量高、迭代快、上手容易的角度来说,近实时也是很好的解决方案。近实时:利用spark-sql内存计算,10分钟、30分钟、60分钟的频率去更新数据。为什么最小的频率是10分钟,因为打点日志的更新频率是10分钟,flume每10分钟上传前10分钟数据文件到hdfs(每个公司业务不同,日志更新频率也不同)原创 2021-12-21 11:15:04 · 2553 阅读 · 0 评论 -
hive经典面试题4--如何用分时数据计算分时累计数据?如何在分时累计数据为空的时候去补全数据?
背景:在互联网公司经常用每10分钟为维度去统计某一个指标,这种统计我们称为分时数据。例如10分钟内某个渠道的安装数据,通过这个数据可以实时查看这个渠道质量好坏,如果这个渠道质量不行,那么就停止投放,避免不必要的损失。有时候会用每10分钟累计一次(我们称为分时累计数据),通过折线图去看这个数据的走势。那么问题来了,如何用分时数据计算分时累计数据呢?有如下分时数据(将时间戳格式化成HH:mm),怎么去统计每10分的累计数据呢?说到累计,我们很容易就想到了sum() over()这个函数app原创 2021-12-09 18:13:17 · 2012 阅读 · 0 评论 -
hive经典面试题3--游戏业务中一次赢、先赢后输、一直输(有无下一关)如何统计
背景:有些小游戏公司,对于新上线的关卡小游戏,会对每个关卡的用户,通关情况进行统计分布,调整关卡的难易程度、任务奖励等一次赢: 经过本关没有输的记录,只有赢的记录,如果赢了一次,这一关是无法再重新玩的先赢后输: 经过本关,输的记录在赢的记录前面,最终是赢的一直输: 经过本关没有赢的记录,只有输的记录对于这种一次赢、先赢后输、一直输,在数仓里面只是一个标签。怎么打这种标签:gamestatus='7’为赢的状态,gamestatus='8’为赢的状态,一次赢:拿每个用户每个关卡赢的记录去关原创 2021-12-03 18:18:32 · 514 阅读 · 0 评论 -
hive经典面试题2--次日留存、3日、7日留存怎么计算
背景:互联网公司,分析app上线后的效果,通常会通过很多指标来分析,其中一个指标就是留存率,留存率中最重要的就是次日留存,如果次日留存很高,说明这个app很成功,用户粘性高。留存是怎么定义的呢?一个用户第一天来了,第二天又来了,说明这个用户留存了。次日留存率就是100%第一天来了100个用户,第二天这100用户中只有50个用户过来了,第三天这100个用户中只有30个用户过来了;那么次日留存率就是50/100100=50%,3日留存率就是30/100100=30%我们来看看通过代码怎么计算留存率:原创 2021-11-25 18:30:41 · 12001 阅读 · 0 评论 -
hive经典面试题1--根据主播上播、下播时间戳求播出时长
现有如下数据,主播id、房间号、播出的批次号,每个批次号进出房间的时间戳、分区时间:accidroom_idbatch_iddatelinedt5eb705796a8971881mFJmd2231629047963024162904796559208-185eb705796a8971881mFJmd2231629047963024162904797533608-188c15215f733b8e7f1m90uT2641629273804000162原创 2021-08-26 15:54:49 · 552 阅读 · 0 评论