大数据面试常见问题总结

最新推荐文章于 2023-08-31 18:19:06 发布

杨五五

最新推荐文章于 2023-08-31 18:19:06 发布

阅读量1.8k

点赞数

分类专栏：面经

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/arli_xu/article/details/109053632

版权

面经专栏收录该内容

1 篇文章 0 订阅

订阅专栏

目录

五.ElasticSearch

项目

项目通常有如下六类，对比简历看一下面试者参与过其中哪些类的项目开发。

离线数据仓库 :flume ,hdfs,hive/spark

实时数据查询 : hbase,redis,mongo

在线数据分析 : elasticsearch,impala,kylin,druid,mppdb,clickhouse

实时流处理 : spark-streaming,flink,kafka

图数据库分析 :neo4j,janusgraph,hugegraph, spark-graphX

推荐系统 : spark mllib , als ,lightgbm , lr , 搜索推荐, 基于知识图谱的推荐等。

一.HDFS

HDFS的读写流程。
HDFS的editlog和fsimage作用?
Namenode和SecondaryNamenode 的区别？
HDFS的HA机制原理？
HDFS最初为什么使用三副本而不是其他的数据容错方式?副本分配策略是什么？
NameNode和DataNode的堆内存中存储的内容?
HDFS存储小文件的挑战是什么？如何解决？
NameNode联邦是什么，用来解决什么问题？Router-based Federation和基于ViewFs的Federation的区别？
HDFS的存储分级功能通常用在什么场景？
如何解决节点间的数据倾斜？如何解决某个节点内硬盘的数据倾斜？

二.Spark

Spark中的RDD和DataFrame的概念?
从实现原理上阐述Spark对比MapReduce的优势？
cache ，persist，checkpoint的区别和作用。
repartition和colesce的区别。
map和mappartition的区别。
Spark on Yarn模式下，如何保证多任务运行时的资源分配和隔离。
Yarn capacity scheduler的作用。
partition,executor以及task的数目的关系。
Spark Streaming中createDstream和createDirectStream的区别。
什么是广播变量?
什么是executor overhead memory？
如何指定Spark的运行资源能够使集群资源利用率最大化？
spark sql中的谓词下推是什么？怎么样才能触发谓词下推？
spark 3.0中的动态分区是什么？
orc,parquet各种存储格式的原理。
各种压缩算法的压缩/解压性能和压缩比:snappy,zlib,lzo,zstd等。

三.Kafka

Kafka的单机读写性能能到达多少？性能快的原因?
Kafka的offset commit是用来作什么的？
Kafka多副本场景下是如何选择副本Leader的?
ISR和OSR的概念?
ConsumerGroup和Consumer Rebalance机制？
Kafka partition的分配策略？
Kafka数据盘满了会出现什么现象？如何处理？
Kafka如何进行性能评估？性能优化的一些方法？

四.HBase

HBase的 HMaster和RegionServer之间的关系。
Region和HFile的概念。
HFile合并过程是什么样的？Minor Compaction和MajorCompaction中分别会进行哪些操作？
HBase 2.0是如何解决FullGC导致的毛刺现象的？
HBase RowKey的设计？
HBase的性能优化方法？
如何处理HBase中Region分隔不均匀的问题？
什么是WAL机制？
HBase的读取和写入数据的流程？
什么是HBase数据的本地化率?

五.ElasticSearch

ElasticSearch节点有哪几种类型？
ElasticSearch如何进行Master选举?
详细描述ElasticSearch索引文档的过程? 什么是协调节点?refresh interval是指从Memory Buffer refresh到哪里？flush又是什么样子呢? flush触发的机制有哪几种?translog是什么?
ElasticSearch中的分片和副本分别是什么?
ElasticSearch的分片分配策略是什么?
ElasticSearch的写入性能优化有哪些思路或方法?
ElasticSearch的查询性能优化有哪些思路或方法？
ElasticSearch的分析器的作用？
ElasticSearch大数据量下的聚合是如何实现的?需要注意哪些点?

六.JanusGraph

JanusGraph有哪些部署方式?
JanusGraph支持哪些Index backend和哪些Storage backend?
Gremlin是什么?
JanusGraph的id生成策略?
如何优化JanusGraph批量写入的性能?
还知道哪些主流的图数据库?说一些他们的特点?
知识图谱的概念?
如何设计一套基于知识图谱进行搜索和推荐的系统?

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
大数据面试常见问题总结

目录项目一.HDFS二.Spark三.Kafka四.HBase五.ElasticSearch六.JanusGraph项目项目通常有如下六类，对比简历看一下面试者参与过其中哪些类的项目开发。离线数据仓库 :flume ,hdfs,hive/spark实时数据查询 : hbase,redis,mongo在线数据分析 : elasticsearch,impala,kylin,druid,mppdb,clickhouse实时流处理 : spark-streamin
复制链接

扫一扫

专栏目录

杨五五 CSDN认证博客专家 CSDN认证企业博客

码龄8年

80: 原创

41万+: 周排名

164万+: 总排名

7万+: 访问

: 等级

749: 积分

9: 粉丝

17: 获赞

21: 评论

121: 收藏

私信

关注

热门文章

分类专栏

开发笔记 2篇
tensorflow 3篇
版权申请 1篇
python 1篇
算法 1篇
面经 1篇
HDFS 1篇
C/C++ 2篇
Ant Design Pro 2篇
Spring Boot 1篇
问题定位 2篇

最新评论

与神奇的甲方斗智斗勇
杨五五: 结合虚拟现实的视觉画面，在合适的时机释放不同的化学物质就可以完成啦。草坪的清新感与新鲜的植物气味相关，例如青草或花朵的香味。一些草本植物的精油，如薄荷、迷迭香或百里香，具有类似的清新气味。大海的咸味主要与海水中的盐分有关。盐类化合物可以用于模拟咸味，例如食盐（氯化钠）。比如，祖马龙有一款叫做鼠尾草与海盐的香水。彩虹的芬芳可能与多种花朵的香气有关。不同的花朵释放出独特的气味，如玫瑰、茉莉、百合等。花朵的精油或香水中的花香成分可以用于模拟彩虹的芬芳。
与神奇的甲方斗智斗勇
√Outlier: 虚拟现实是怎么实现体验嗅觉的啊，我看你说 ”闻到草坪的清新、大海的咸味，甚至是彩虹的芬芳。“
kafka深度性能测试
杨五五: 多进程分为单机多进程和多机多进程，开启多个终端是最简单的一种实现方式。单机多进程是可以用你说的方式来模拟的。
kafka深度性能测试
yutoBAT: 请问一下多个producer进程是如何实现的呢，是开启多个终端窗口然后去运行测试脚本吗，可以在一个测试脚本中指定thread参数开启多个线程同等实现该功能吗，
Prophet时序数据异常检测方法
LENG340: 请问可以分享一下数据吗？

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。