大厂面试：小红书大数据面试题及参考答案（3万字长文）

大模型大数据攻城狮

于 2024-07-28 12:31:54 发布

阅读量87

点赞数 4

分类专栏：大数据最全面试题-Offer直通车文章标签：牛客网一面二面大数据面经数据倾斜 Spark资源 hadoop资源

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/linweidong/article/details/140748999

版权

大数据最全面试题-Offer直通车专栏收录该内容

126 篇文章 23 订阅 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

目录

Hadoop 和 Spark 的区别和优劣

Spark Shuffle 原理，Hash Shuffle 和 Sort Shuffle

线程池，阻塞队列有界无界，救急线程

JVM 内存模型

栈溢出的场景和应对方法

方法区是否能溢出，如果溢出的话储存的那些类信息怎么办

MySQL 索引设计原则

当数据量很大时，count(distinct uid)计算失败怎么办

小文件过多对Namenode的影响

不同数据库的应用场景及特点

Spark的组件及其在YARN模式下的区别

Spark外部资源及第三方jar包放置位置

Spark内存结构及堆外内存的优势

Spark内存结构

堆外内存的优势

Spark Standalone和YARN模式下的资源调度

Spark Standalone模式

Spark on YARN模式

Spark Executor内的Task隔离

Flink如何实现Exactly Once语义

Flink和Spark Streaming的区别

Flink Checkpointing

Flink如何用Checkpoint和Watermark防止读到乱序数据

Flink Checkpoint Chandy-Lamport算法

Chandy-Lamport算法概述

Flink中的应用

优势与局限

Flink和Spark Streaming在API的使用上如何体现面向微批次和面向流

Flink的面向流API

Spark Streaming的面向微批次API

Spark 分Stage的原则

宽依赖与窄依赖

Hive 数据存储格式及其优缺点

Hive支持的数据存储格式

Hive 计算引擎的优缺点和应用场景

Hive计算引擎

Hive 两个大表Join的过程

Hive 内部表和外部表的区别

Hive 使用UDF函数

UDF函数的使用步骤

Hive MAX函数的实现

Hive 排序及其区别

Hive排序方法

Hive Join 的几种方式及原理

Hive Join 的类型

Hive Join 原理

MapReduce 确定 MapTask 数量的方法

HDFS 如何处理读写错误

Spark 和 Hive 去重方法及其优缺点

Spark去重方法

Hive去重方法

TCP、UDP 和 TCP 拥塞控制算法

TCP 拥塞控制算法

Java 中 String、StringBuffer 和 StringBuilder 的主要区别

数组和链表的区别

Java 的 ArrayList 的特点

ArrayList 是否线程安全及实现线程安全的方法

线程不安全和线程安全的具体表现

线程不安全的表现

线程安全的表现

线程安全的保证方法

Python 中字典和元组的区别

字典底层实现

字典底层实现细节

手动实现字典

HashMap 和 Hashtable 的线程安全性

查看 CPU 大小和内存大小的命令

TCP 五层体系结构

何时使用 TCP 或 UDP

使用 TCP 和 UDP 的协议

使用 TCP 的协议

使用 UDP 的协议

JVM虚拟机运行时分区

运行时分区

Java内存模型的三个性质

Java内存模型的性质

volatile是否能保证共享变量不出问题

volatile的保证

volatile的限制

MR中的group by与distinct的区别

Boosting算法和Bagging算法的区别

GBDT原理简介

Spark集群低带宽下从大数据量中找出中位数

需要开窗的HQL：求连续两个学期都选了数学的学生

用Java代码实现：求1000以内的所有质数，并且各位数字之和是偶数

Hadoop 和 Spark 的区别和优劣

Hadoop和Spark是两种广泛使用的分布式计算框架，它们各自具有不同的设计理念和技术特性。

Hadoop 是一个基于MapReduce编程模型的大规模数据处理框架。它通过将数据切分成块，在集群中的多个节点上并行处理来实现高性能的数据处理。Hadoop的核心组件包括HDFS（Hadoop Distributed File System）用于存储数据，MapReduce用于处理数据。

优点:
- 成熟稳定：Hadoop是一个经过长期实践验证的系统，有着丰富的社区支持。
- 适合批处理：对于大规模数据的离线批处理非常有效。
- 容错性好：Hadoop通过冗余备份和故障恢复机制保证了高可用性。
- 可扩展性强：易于横向扩展，可以通过增加更多的节点来提升系统的处理能力。

了解本专栏

超级会员免费看

大模型大数据攻城狮

关注

4
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
大厂面试：小红书大数据面试题及参考答案（3万字长文）

Chandy-Lamport算法是一种用于分布式系统中生成一致快照的方法。它通过在系统中传播标记（Marker）来实现状态的一致性快照。初始化选择一个节点作为快照的发起者。发起者向所有邻居节点发送一个标记（Marker）消息。标记传播接收到标记的节点会将其状态保存下来，并向其所有邻居发送标记。这些邻居节点再将标记传递给它们的邻居。状态收集当一个节点接收到所有邻居的标记后，它会将自身状态发送给发起者。发起者收集所有节点的状态，并形成一致快照。快照完成当发起者收集到所有节点的状态后，快照完成。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

大模型大数据攻城狮 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。