面试
YY_pdd
linux and bigdata studying ......
展开
-
spark常见面试题
spark面试题1.spark的RDD是什么,有哪些特性RDD(Resilient Distributed Dataset)叫做分布式数据集,是spark中最基本的数据抽象,它代表一个不可变,可分区,里面的元素可以并行计算的集合。Resilient弹性的:RDD中的数据可以存储在内存或者磁盘中。RDD中的分区是可以改变的。Distributed分布式,可以并行在集群计算。Dataset用于存放数据的集合。五大特性1)A list of partitions一个分区列表,RDD原创 2020-11-09 08:37:28 · 1426 阅读 · 0 评论 -
java常见面试题
Java核心技术1、Hash Map底层源码,数据结构Hash Map采用由数组+链表+红黑树的存储方式。采用Entry数组来存储key-value对,每一个键值对组成了一个Entry实体,Entry类实际上是一个单向的链表结构,它具有Next指针,可以连接下一个Entry实体,以此来解决Hash冲突的问题。数组的特点:寻址容易,插入和删除困难。存储空间紧凑,不适合存储稀疏数据。链表特点:插入和删除简单,寻址困难,单位存储空间比数组高,但是适合存储稀疏数据。所以当链表长度超过阈值(8)时,将链表原创 2020-11-04 15:06:32 · 340 阅读 · 0 评论 -
kafka常见面试题
kafka1、kafka名词解释和工作producer:消息生产者,就是向kafka broker发消息的客户端。consumer:消息消费者,向kafka broker取消息的客户端。topic:可以理解为一个队列。consumer group(CG):这是kafka用来实现一个topic消息的广播(发给所有人的consumer)和单播(发给任意一个consumer)的手段。一个topic可以有多个CG。topic的消息会复制(概念上的复制)到所有的CG,但每个partion只会把消息发给该原创 2020-11-01 23:40:44 · 2143 阅读 · 0 评论 -
hive常见面试题
hive常见面试题1、大表join小表产生的问题,怎么解决?大表join小表,独钟爱mapjoin;MapJoin通常用于一个很小的表和一个大表进行join的场景,具体小表有多小,由参数hive.mapjoin.smalltable.filesize来决定,该参数表示小表的总大小,默认值为25000000字节,即25M。在0.7版本之后,默认自动会转换Map Join;Mapjoin分为两个阶段:通过mapreduce local task,将小表读入内存,生成HashTableFiles上传原创 2020-10-31 15:03:18 · 2461 阅读 · 1 评论 -
hadoop相关面试题
hadoop相关面试题以下未实际验证,可借鉴不可笃信。hadoop相关面试题1.hdfs写流程2.hdfs读流程3.hdfs的体系结构4.一个datanode 宕机,怎么一个流程恢复5.hadoop 的 namenode 宕机,怎么解决6.namenode对元数据的管理7.元数据的checkpoint8.yarn资源调度流程9.hadoop中combiner和partition的作用10.用mapreduce怎么处理数据倾斜问题?11.shuffle 阶段,你怎么理解的12.Mapreduce 的 map原创 2020-10-10 21:16:02 · 622 阅读 · 2 评论