![](https://img-blog.csdnimg.cn/12874ac8f05a4a0c8bf32171cf7510fe.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据面试题
文章平均质量分 71
大数据面试题V2.0主要是从牛客上摘取一些别人分享的大数据面试题,然后给出参考答案。
蓦然_
大数据开发,公众号:旧时光大数据
展开
-
大数据面试题V2.0,641页,39w字
面试题来源:牛客网大数据面经,从约500篇面经选取。原创 2022-01-19 23:16:35 · 2850 阅读 · 1 评论 -
大数据面试题:Spark和Flink的区别
Flink 根据用户提交的代码生成 StreamGraph,经过优化生成 JobGraph,然后提交给JobManager 进行处理, JobManager 会根据 JobGraph 生成 ExecutionGraph,ExecutionGraph 是 Flink 调度最核心的数据结构,JobManager 根据 ExecutionGraph 对 Job 进行调度。在Flink的世界观中,一切都是由流组成的,离线数据是有界限的流,实时数据是一个没有界限的流,这就是所谓的有界流和无界流。原创 2023-10-10 21:40:57 · 1125 阅读 · 0 评论 -
大数据面试题:Spark和MapReduce之间的区别?各自优缺点?
Spark的DAGScheduler相当于一个改进版的MapReduce,如果计算不涉及与其他节点进行数据交换,Spark可以在内存中一次性完成这些操作,也就是中间结果无须落盘,减少了磁盘IO的操作。有一个误区,Spark是基于内存的计算,所以快,这不是主要原因,要对数据做计算,必然得加载到内存,Hadoop也是如此,只不过Spark支持将需要反复用到的数据Cache到内存中,减少数据加载耗时,所以Spark跑机器学习算法比较在行(需要对数据进行反复迭代)。原创 2023-10-07 22:10:23 · 2180 阅读 · 0 评论 -
大数据面试题:MapReduce压缩方式
对单个很大的文本文件想压缩减少存储空间,同时又需要支持split,而且兼容之前的应用程序(即应用程序不需要修改)的情况。当Mapreduce作业的Map输出的数据比较大的时候,作为Map到Reduce的中间数据的压缩格式。一个很大的文本文件,压缩之后还大于200M以上的可以考虑,而且单个文件越大,lzo优点越越明显。输出之后的数据比较大,处理之后的数据需要压缩存档减少磁盘空间并且以后数据用得比较少的情况。适合对速度要求不高,但需要较高的压缩率的时候,可以作为mapreduce作业的输出格式。原创 2023-09-02 13:17:45 · 574 阅读 · 0 评论 -
大数据面试题:Spark的任务执行流程
运行流程以SparkContext为程序运行的总入口,在SparkContext的初始化过程中,Spark会分别创建DAGScheduler作业调度和TaskScheduler任务调度两级调度模块。原创 2023-08-19 12:46:17 · 685 阅读 · 0 评论 -
大数据面试题:说下Spark中的Transform和Action,为什么Spark要把操作分为Transform和Action?
Transform和ActionTransformation是得到一个新的RDD,但并不立即执行计算,只是记录下这个操作。方式很多,比如从数据源生成一个新的RDD,从RDD生成一个新的RDD。Action是指触发对RDD进行计算的操作,得到一个值,或者一个结果(直接将RDD cache到内存中)。因为所有的Transformation都是采用的懒策略,就是如果只是将Transformation提交是不会执行计算的,计算只有在Action被提交的时候才被触发。这样有利于减少内存消耗,提高了执行效率。原创 2023-08-12 11:19:29 · 384 阅读 · 0 评论 -
大数据面试题:Hadoop中的几个进程和作用
Hadoop中的几个进程和作用原创 2023-08-07 23:22:34 · 771 阅读 · 0 评论 -
大数据面试题:HBase的读写缓存
HBase上RegionServer的cache主要分为两个部分:MemStore & BlockCache。原创 2023-08-05 11:39:09 · 847 阅读 · 0 评论 -
大数据面试题:HBase的RegionServer宕机以后怎么恢复的?
通常情况下要求集群中至少启动两个Master进程,进程启动之后会到ZooKeeper上的Master节点进行注册,注册成功后会成为ActiveMaster,其他在Master节点未注册成功的进程会到另一个节点Backup-Masters节点进行注册,并持续关注Active Master的情况,一旦Active Master发生宕机,这些Backup-Masters就会立刻得到通知,它们再次竞争注册Master节点,注册成功就可成为Active Master。FullGc引起长时间停顿。原创 2023-07-31 22:59:19 · 1203 阅读 · 0 评论 -
大数据面试题:Kafka的单播和多播
大数据面试题:Kafka的单播和多播原创 2023-07-30 11:26:34 · 1485 阅读 · 0 评论 -
大数据面试题:超详细版MapReduce工作原理
大数据面试题:超详细版MapReduce工作原理原创 2023-07-27 21:18:14 · 267 阅读 · 0 评论 -
大数据面试题:Kafka怎么保证数据不丢失,不重复?
大数据面试题:Kafka怎么保证数据不丢失,不重复?原创 2023-07-24 21:25:28 · 1485 阅读 · 0 评论 -
大数据面试题:HBase读写数据流程
大数据面试题:HBase读写数据流程原创 2023-07-23 14:43:18 · 616 阅读 · 0 评论 -
大数据面试题:Kafka怎么保证数据不丢失,不重复?
Kafka怎么保证数据不丢失,不重复?原创 2023-07-22 13:17:22 · 592 阅读 · 0 评论 -
大数据面试题:Kafka的消费者和消费者组有什么区别?为什么需要消费者组?
大数据面试题:Kafka的消费者和消费者组有什么区别?为什么需要消费者组?原创 2023-07-16 14:56:53 · 331 阅读 · 0 评论 -
大数据面试题:Kafka的Message包括哪些信息
大数据面试题:Kafka的Message包括哪些信息原创 2023-07-01 15:03:09 · 600 阅读 · 0 评论 -
大数据面试题:Zookeeper架构
大数据面试题:Zookeeper架构原创 2023-06-29 10:26:33 · 720 阅读 · 0 评论 -
大数据面试题:Kafka是如何实现高吞吐的
Kafka是分布式消息系统,需要处理海量的消息,Kafka的设计是把所有的消息都写入速度低容量大的硬盘,以此来换取更强的存储能力,但实际上,使用硬盘并没有带来过多的性能损失。kafka主要使用了以下几个方式实现了超高的吞吐率。1)顺序读写kafka的消息是不断追加到文件中的,这个特性使kafka可以充分利用磁盘的顺序读写性能,顺序读写不需要硬盘磁头的寻道时间,只需很少的扇区旋转时间,所以速度远快于随机读写。Kafka官方给出了测试数据(Raid-5,7200rpm):顺序 I/O...原创 2021-08-04 13:12:28 · 1009 阅读 · 0 评论 -
大数据面试题:HBase为什么查询快
HBase为什么查询快原创 2023-06-22 12:04:28 · 1397 阅读 · 0 评论 -
大数据面试题:Hive的cluster by 、sort by、distribute by 、order by 区别?
Hive的cluster by 、sort by、distribute by 、order by 区别原创 2023-06-20 12:52:22 · 585 阅读 · 0 评论 -
Hadoop的mapper和reducer的个数如何确定?reducer的个数依据是什么?
FileInputFormat按照文件分割split,并且只会分割大文件,即那些大小超过HDFS块的大小的文件。如果HDFS中dfs.block.size设置为128m,而输入的目录中文件有100个,则划分后的split个数至少为100个。当块(dfs.block.size)为128m时,如果输入文件为128m,会被划分为1个split;分片是按照splitszie的大小进行分割的,一个split的大小在没有设置的情况下,默认等于hdfs block的大小。x为reduce的数量。原创 2023-06-11 22:15:44 · 336 阅读 · 0 评论 -
Hive的用户自定义函数实现步骤与流程
用户创建的UDF使用过程如下:第一步:继承UDF或者UDAF或者UDTF,实现特定的方法;第二步:将写好的类打包为jar,如hivefirst.jar;第三步:进入到Hive外壳环境中,利用add jar /home/hadoop/hivefirst.jar注册该jar文件;第四步:为该类起一个别名,create temporary function mylength as 'com.whut.StringLength',这里注意UDF只是为这个Hive会话临时定义的;原创 2023-05-25 13:03:40 · 808 阅读 · 0 评论 -
Spark的内存管理机制
Spark的内存管理机制原创 2022-11-16 10:15:05 · 699 阅读 · 0 评论 -
计算机网络面试题
计算机网络面试题原创 2022-11-15 17:28:52 · 506 阅读 · 0 评论 -
Spark常见数据倾斜情况及调优方案
Spark常见数据倾斜情况及调优方案原创 2022-11-09 08:42:11 · 2575 阅读 · 0 评论 -
Spark面试题—Spark Troubleshooting
Spark面试题—Spark Troubleshooting原创 2022-11-08 11:41:16 · 178 阅读 · 0 评论 -
悲观锁与乐观锁
悲观锁与乐观锁原创 2022-11-06 09:33:27 · 173 阅读 · 0 评论 -
Flink面试进阶篇
Flink面试进阶篇原创 2022-11-05 21:04:21 · 897 阅读 · 0 评论 -
为什么会产生yarn,解决了什么问题,优势?
为什么会产生yarn,解决了什么问题,优势?原创 2022-11-04 08:38:35 · 684 阅读 · 0 评论 -
Spark面试题——Spark小文件问题及解决方案
Spark小文件问题及解决方案原创 2022-11-02 12:24:29 · 1506 阅读 · 0 评论 -
Spark面试题——说下对RDD的理解?RDD特点、算子?
Spark面试题——说下对RDD的理解?RDD特点、算子?原创 2022-10-30 12:42:21 · 491 阅读 · 0 评论 -
数据仓库面试题——介绍下数据仓库
数据仓库面试题——介绍下数据仓库原创 2022-10-29 10:44:14 · 738 阅读 · 0 评论 -
数据仓库面试题——数据仓库分层
数据仓库分层原创 2022-10-26 22:07:07 · 1151 阅读 · 0 评论 -
字节电商大数据开发一面,已过,面试题已配答案
字节电商大数据开发一面,已过,面试题已配答案原创 2022-10-25 22:22:49 · 2055 阅读 · 0 评论 -
阿里云大数据开发三面面经,已过,面试题已配答案
阿里云大数据开发三面面经,已过,面试题已配答案原创 2022-10-24 10:14:47 · 4472 阅读 · 1 评论 -
阿里云大数据开发二面面经,已过,面试题已配答案
阿里云大数据开发二面面经,已过,面试题已配答案原创 2022-10-20 12:32:06 · 1310 阅读 · 0 评论 -
阿里云大数据开发一面面经,已过,面试题已配答案
阿里云大数据开发一面面经,已过,面试题已配答案原创 2022-10-19 22:44:51 · 3079 阅读 · 1 评论 -
大数据面试题:介绍下YARN
介绍下YARN原创 2022-03-29 17:08:55 · 2946 阅读 · 0 评论 -
大数据面试题:MapReduce优缺点
MapReduce优缺点原创 2022-03-26 11:23:11 · 807 阅读 · 0 评论 -
大数据面试题:介绍下MapReduce
介绍下MapReduce,MapReduce优缺点原创 2022-03-22 22:50:01 · 614 阅读 · 0 评论