目录
简单介绍map reduce和Spark它们之间有什么区别,哪个性能方面更好以及适用于哪一些场景?
两个活动对比 一个活动留存较高,给出可能的原因,会用到哪些数据
如果现在给出几个日志记录的字段(时间、登录状态、id等等),你能提取什么信息分析什么结论
从原始数据层ODS到汇总数据仓DWD再到应用数据层中间的数据处理是怎么做的?
如果各层时使用的是hive sql进行数据处理的,那么应该有类似于ETL任务调度,那这种调度在终端中是怎么实现的?
客户端和服务端的日志采集最终是写到Kafka,那么kafka再到Hadoop的中间过程是怎么实现的?
Flink checkpoints和barrier是同时进行的吗?
为什么数据存入HDFS还要再倒入NoSQL,为什么HDFS对OLAP支持不友好?
介绍一下MR的原理(工作流程,Map-Shuffle-Reduce)
Hadoop数据倾斜的解决方案(Combiner、局部聚合加全局聚合、自定义分区、增加JVM内存)
开发统计某app用户各功能使用时长,整个流程怎么实现,怎么优化,怎么横向拓展
统计评估各个网页的重要性,采取的算法思路,Spark代码实现
Kafka结构,怎样防止脑裂,为什么最新版本不用zookeeper来维护offset
如何评价新用户的留存指标有哪些?
在评估新用户的留存时,通常会关注一系列关键指标来衡量用户在不同时间段内的留存情况。这些指标包括但不限于:
-
次日留存率(D1):指用户在首次使用后的第二天仍继续使用的比例。这是一个非常重要的早期信号,可以用来快速判断产品的吸引力和用户体验是否良好。
-
七日留存率(D7):表示用户在首次使用后第七天仍然活跃的比例。与次日留存相比,这个指标更能够反映用户对产品的真实兴趣和忠诚度。
-
三十日留存率(D30):衡量用户在注册或下载应用后的第30天仍然活跃的比例。这是评估长期用户价值的一个