2024年最全网易大数据面试题及参考答案（3万字长文持续更新）

最新推荐文章于 2024-09-13 00:01:43 发布

大模型大数据攻城狮

最新推荐文章于 2024-09-13 00:01:43 发布

阅读量378

点赞数 4

分类专栏：大数据最全面试题-Offer直通车文章标签：大数据数据倾斜 rowkey 数据分析增量表全量表

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/linweidong/article/details/140725610

版权

大数据最全面试题-Offer直通车专栏收录该内容

该专栏为热销专栏榜第78名

164 篇文章 60 订阅 ¥39.90 ¥99.00

订阅专栏

目录

如何评价新用户的留存指标有哪些？

游戏业务中有哪些常用指标？

怎么制定游戏业务的目标

游戏业务中哪三个业务最重要

数据分析指标的阈值怎么确定

怎么衡量你在业务部门的贡献

如何衡量一个活动的ROI

跟领导汇报游戏业务，你会选择哪5个指标，为什么

介绍一下Hadoop架构的组件？

简单介绍map reduce和Spark它们之间有什么区别，哪个性能方面更好以及适用于哪一些场景？

两个活动对比一个活动留存较高，给出可能的原因，会用到哪些数据

月活不变周活下降，原因？怎么验证？

用户粘性不高怎么解决？

数据分析的认识？

数据分析职业的规划？

数据挖掘和数据分析的区别？你的偏好？

一款游戏，月活没变，周活下降，分析原因

如果现在给出几个日志记录的字段(时间、登录状态、id等等)，你能提取什么信息分析什么结论

某款游戏的DAU突然下降你会怎么分析

数据库三范式知道么？

增量表和全量表优缺点？

内部表和外部表区别？

left join和full join区别？

Flume的应用场景？

如何实现的数据采集？

离线数仓整个体系的分层？

从原始数据层ODS到汇总数据仓DWD再到应用数据层中间的数据处理是怎么做的？

spark集群低带宽怎样从大数据量中找中位数

如果各层时使用的是hive sql进行数据处理的，那么应该有类似于ETL任务调度，那这种调度在终端中是怎么实现的？

离线数据调度都是手动写好脚本定时来执行？

有没有用过spark做一些处理?

数仓全量和增量是怎么做的？

客户端和服务端的日志采集最终是写到Kafka，那么kafka再到Hadoop的中间过程是怎么实现的？

介绍一下Kafka的集群架构？

BI工具在业务上又是干嘛用的？

mqsql数据库的索引机制？

索引是基于什么实现的？

离线数仓什么样的数据会放到mysql里面？

MySQL的事务和基本原则

MySQL的默认事务隔离级别

不同的隔离级别会出现哪一些问题，简单描述一下？

为什么会造成数据的脏读和幻读？

Java的JVM机制

Spring Boot机制

shell中的vim如何退出，退出会保存吗？

怎么查一个CPU占用较高的线程？

讲个干货Flink的内存管理模型

Flink checkpoints和barrier是同时进行的吗？

迪卡尔积会产生什么问题？

迪卡尔积会产生数据倾斜吗？

为什么数据存入HDFS还要再倒入NoSQL，为什么HDFS对OLAP支持不友好？

Spark任务执行全过程

数据倾斜了怎么办？

在数据仓库中，如果一个数据，维度很多，怎么展示？

维护多个版本需要较多的成本，该怎么解决这个问题

介绍一下Hadoop，简单说了一下Hadoop的组成和定义

介绍一下MR的原理（工作流程，Map-Shuffle-Reduce）

Hadoop数据倾斜的解决方案（Combiner、局部聚合加全局聚合、自定义分区、增加JVM内存）

HiveSQL 数据倾斜和 Spark 数据倾斜

MR 和 Spark 有哪些区别，分别适用什么场景

数仓怎么设计的

数仓ODS层存在的意义

数仓DWD和DIM怎么设计的，有什么指标

数仓DWS层存放的哪些指标

HBase RowKey 设计原则

Flume、Flink CDC 和 DataX 的区别

开发统计某app用户各功能使用时长，整个流程怎么实现，怎么优化，怎么横向拓展

统计评估各个网页的重要性，采取的算法思路，Spark代码实现

网易云课堂突然订阅量下降，怎么定位分析原因

在各个平台投放简历，怎么评估效果

Kafka结构，怎样防止脑裂，为什么最新版本不用zookeeper来维护offset

SQL 提取连续两天登录的用户

如何评价新用户的留存指标有哪些？

在评估新用户的留存时，通常会关注一系列关键指标来衡量用户在不同时间段内的留存情况。这些指标包括但不限于：

次日留存率（D1）：指用户在首次使用后的第二天仍继续使用的比例。这是一个非常重要的早期信号，可以用来快速判断产品的吸引力和用户体验是否良好。
七日留存率（D7）：表示用户在首次使用后第七天仍然活跃的比例。与次日留存相比，这个指标更能够反映用户对产品的真实兴趣和忠诚度。
三十日留存率（D30）：衡量用户在注册或下载应用后的第30天仍然活跃的比例。这是评估长期用户价值的一个

了解本专栏

大模型大数据攻城狮

关注

4
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

大模型大数据攻城狮 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。