史上最全141道大数据面试题：Redis+Linux+kafka+Hadoop，附答案(1)

2401_83946315

于 2024-04-27 13:37:39 发布

阅读量629

点赞数 5

文章标签：大数据 redis linux

本文链接：https://blog.csdn.net/2401_83946315/article/details/138247946

版权

watch dog 自动延期机制
可重入加锁机制
释放锁机制
上述 Redis 分布式锁的缺点
使用过 Redis 分布式锁么，它是怎么实现的？
使用过 Redis 做异步队列么，你是怎么用的？有什么缺点？
什么是缓存穿透？如何避免？什么是缓存雪崩？何如避免？

Linux面试专题及答案

============

Linux 软中断和工作队列的作用是什么?
Linux 通过什么方式实现系统调用?
如何唯一标识一个设备?
字符设备驱动程序的关键数据结构是哪个?
Linux 中有哪几种设备?
模块程序能否使用可链接的库函数?
Linux 中的浮点运算由应用程序实现还是内核实现?
模块和应用程序分别运行在什么空间?
Linux 调度程序是根据进程的动态优先级还是静态优先级来调度进程的?
调用 schedule()进行进程切换的方式有几种?
Linux 中的文件包括哪些?
Linux 中主要有哪几种内核锁?
Linux 中的用户模式和内核模式是什么含义?
TLB 中缓存的是什么内容?
设备驱动程序包括哪些功能函数?

Kafka面试专题及答案

============

kafaka 生产数据时数据的分组策略
Kafka 的设计是什么样的呢？
数据传输的事物定义有哪三种？
Kafka 判断一个节点是否还活着有那两个条件？
producer 是否直接将数据发送到 broker 的 leader(主节点)？
Kafa consumer 是否可以消费指定分区消息？
Kafka 消息是采用 Pull 模式，还是 Push 模式？
Kafka 存储在硬盘上的消息格式是什么？
Kafka 高效文件存储设计特点
Kafka 与传统消息系统之间有三个关键区别
Kafka 创建 Topic 时如何将分区放置到不同的 Broker 中
Kafka 新建的分区会在哪个目录下创建
partition 的数据如何保存到硬盘
kafka 的 ack 机制
Kafka 的消费者如何消费数据
消费者负载均衡策略
数据有序

大数据面试题大全

========

1、kafka 的 message 包括哪些信息

2、怎么查看 kafka 的 offset

3、hadoop 的 shuffle 过程

4、spark 集群运算的模式

5、HDFS 读写数据的过程

6、RDD 中 reduceBykey 与 groupByKey 哪个性能好，为什么

7、spark2.0 的了解

8、 rdd 怎么分区宽依赖和窄依赖

9、spark streaming 读取 kafka 数据的两种方式

10、kafka 的数据存在内存还是磁盘

11、怎么解决 kafka 的数据丢失

12、fsimage 和 edit 的区别？

13、列举几个配置文件优化？

14、datanode 首次加入 cluster 的时候，如果 log 报告不兼容文件版本，那需要namenode 执行格式化操作，这样处理的原因是？

15、MapReduce 中排序发生在哪几个阶段？这些排序是否可以避免？为什么？

16、hadoop 的优化？

17、设计题

18、有 10 个文件，每个文件 1G，每个文件的每一行存放的都是用户的 query，每个文件的 query 都可能重复。要求你按照 query 的频度排序。还是典型的 TOP K 算法？

19、在 2.5 亿个整数中找出不重复的整数，注，内存不足以容纳这 2.5 亿个整数。

20、腾讯面试题：给 40 亿个不重复的 unsigned int 的整数，没排过序的，然后再给一个数，如何快速判断这个数是否在那 40 亿个数当中？

21、怎么在海量数据中找出重复次数最多的一个？

22、上千万或上亿数据（有重复），统计其中出现次数最多的钱 N 个数据。

23、一个文本文件，大约有一万行，每行一个词，要求统计出其中最频繁出现的前 10 个词，给出思想，给出时间复杂度分析。

24、100w 个数中找出最大的 100 个数。

25、有一千万条短信，有重复，以文本文件的形式保存，一行一条，有重复。请用 5 分钟时间，找出重复出现最多的前 10 条。

Hadoop面试题及答案

============

1.您对“大数据”一词有何了解？

2.大数据的五个V是什么？

3.告诉我们大数据和Hadoop如何相互关联。

4.大数据分析如何有助于增加业务收入？

5.解释部署大数据解决方案时应遵循的步骤。

6.定义HDFS和YARN的相应组件

7.为什么Hadoop可用于大数据分析？

8.什么是fsck？

9. NAS（网络附加存储）和HDFS之间的主要区别是什么？

10.格式化NameNode的命令是什么？

11.您有大数据经验吗？如果有，请分享一下。

12.您更喜欢好的数据还是好的模型？为什么？

13.您是否会优化算法或代码以使其运行更快？

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前在阿里

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新Linux运维全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上运维知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化的资料的朋友，可以点击这里获取！

PjH-1714196249449)]
[外链图片转存中…(img-wgenldtV-1714196249449)]

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上运维知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化的资料的朋友，可以点击这里获取！

2401_83946315

关注

5
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
史上最全141道大数据面试题：Redis+Linux+kafka+Hadoop，附答案(1)

18、有 10 个文件，每个文件 1G，每个文件的每一行存放的都是用户的 query，每个文件的 query 都可能重复。20、腾讯面试题：给 40 亿个不重复的 unsigned int 的整数，没排过序的，然后再给一个数，如何快速判断这个数是否在那 40 亿个数当中？25、有一千万条短信，有重复，以文本文件的形式保存，一行一条，有重复。23、一个文本文件，大约有一万行，每行一个词，要求统计出其中最频繁出现的前 10 个词，给出思想，给出时间复杂度分析。使用过 Redis 做异步队列么，你是怎么用的？
复制链接

扫一扫