大数据面试常见问题总结

目录

项目

一.HDFS

二.Spark

三.Kafka

四.HBase

五.ElasticSearch

六.JanusGraph


项目

项目通常有如下六类,对比简历看一下面试者参与过其中哪些类的项目开发。

离线数据仓库 :flume ,hdfs,hive/spark

实时数据查询 : hbase,redis,mongo

在线数据分析 : elasticsearch,impala,kylin,druid,mppdb,clickhouse

实时流处理 : spark-streaming,flink,kafka

图数据库分析 :neo4j,janusgraph,hugegraph, spark-graphX

推荐系统 : spark mllib , als ,lightgbm , lr , 搜索推荐, 基于知识图谱的推荐等。

 

一.HDFS

  1. HDFS的读写流程。

  2. HDFS的editlog和fsimage作用?

  3. Namenode和SecondaryNamenode 的区别?

  4. HDFS的HA机制原理?

  5. HDFS最初为什么使用三副本而不是其他的数据容错方式?副本分配策略是什么?

  6. NameNode和DataNode的堆内存中存储的内容?

  7. HDFS存储小文件的挑战是什么?如何解决?

  8. NameNode联邦是什么,用来解决什么问题?Router-based Federation和基于ViewFs的Federation的区别?

  9. HDFS的存储分级功能通常用在什么场景?

  10. 如何解决节点间的数据倾斜?如何解决某个节点内硬盘的数据倾斜?

 

二.Spark

  1. Spark中的RDD和DataFrame的概念?

  2. 从实现原理上阐述Spark对比MapReduce的优势?

  3. cache ,persist,checkpoint的区别和作用。

  4. repartition和colesce的区别。

  5. map和mappartition的区别。

  6. Spark on Yarn模式下,如何保证多任务运行时的资源分配和隔离。

  7. Yarn capacity scheduler的作用。

  8. partition,executor以及task的数目的关系。

  9. Spark Streaming中createDstream和createDirectStream的区别。

  10. 什么是广播变量?

  11. 什么是executor overhead memory?

  12. 如何指定Spark的运行资源能够使集群资源利用率最大化?

  13. spark sql中的谓词下推是什么?怎么样才能触发谓词下推?

  14. spark 3.0中的动态分区是什么?

  15. orc,parquet各种存储格式的原理。

  16. 各种压缩算法的压缩/解压性能和压缩比:snappy,zlib,lzo,zstd等。

 

三.Kafka

  1. Kafka的单机读写性能能到达多少?性能快的原因?

  2. Kafka的offset commit是用来作什么的?

  3. Kafka多副本场景下是如何选择副本Leader的?

  4. ISR和OSR的概念?

  5. ConsumerGroup和Consumer Rebalance机制?

  6. Kafka partition的分配策略?

  7. Kafka数据盘满了会出现什么现象?如何处理?

  8. Kafka如何进行性能评估?性能优化的一些方法?

 

四.HBase

  1. HBase的 HMaster和RegionServer之间的关系。

  2. Region和HFile的概念。

  3. HFile合并过程是什么样的?Minor Compaction和MajorCompaction中分别会进行哪些操作?

  4. HBase 2.0是如何解决FullGC导致的毛刺现象的?

  5. HBase RowKey的设计?

  6. HBase的性能优化方法?

  7. 如何处理HBase中Region分隔不均匀的问题?

  8. 什么是WAL机制?

  9. HBase的读取和写入数据的流程?

  10. 什么是HBase数据的本地化率?

 

 

五.ElasticSearch

  1. ElasticSearch节点有哪几种类型?

  2. ElasticSearch如何进行Master选举?

  3. 详细描述ElasticSearch索引文档的过程? 什么是协调节点?refresh interval是指从Memory Buffer refresh到哪里?flush又是什么样子呢? flush触发的机制有哪几种?translog是什么?

  4. ElasticSearch中的分片和副本分别是什么?

  5. ElasticSearch的分片分配策略是什么?

  6. ElasticSearch的写入性能优化有哪些思路或方法?

  7. ElasticSearch的查询性能优化有哪些思路或方法?

  8. ElasticSearch的分析器的作用?

  9. ElasticSearch大数据量下的聚合是如何实现的?需要注意哪些点?

 

六.JanusGraph

  1. JanusGraph有哪些部署方式?

  2. JanusGraph支持哪些Index backend和哪些Storage backend?

  3. Gremlin是什么?

  4. JanusGraph的id生成策略?

  5. 如何优化JanusGraph批量写入的性能?

  6. 还知道哪些主流的图数据库?说一些他们的特点?

  7. 知识图谱的概念?

  8. 如何设计一套基于知识图谱进行搜索和推荐的系统?

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值