若泽数据学员整理面试题

最新推荐文章于 2020-11-30 00:32:20 发布

奔跑de五花肉

最新推荐文章于 2020-11-30 00:32:20 发布

阅读量344

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/fbz123456/article/details/103065051

版权

大数据专栏收录该内容

22 篇文章 0 订阅

订阅专栏

第一份面试题：

1、自我介绍

2、画出你们的大数据架构，然后针对架构提问，如何做到精准一次、小文件规避等

https://blog.csdn.net/zhikanjiani/article/details/89284488

参考第一个mapreduce离线处理项目，为什么你们选择mapreduce或者spark；
不要把东西落到具体的业务上去，应该提升到通用的流程上去，是处理日志的还是处理数据库系统的；
至于数据到hdfs使用什么格式，该使用何种压缩？？？
为什么要选择压缩，压缩带来的好处，压缩带来的弊端；

小文件规避：为什么会产生小文件？？？
考察点：hadoop的元数据存储，读写流程，NameNode和Yarn
1）Hive中使用了insert
引申的问题：为什么Hadoop不怕数据量大，而怕你的数据小，说清楚hadoop的元数据存储形式；小文件过多NameNode会扛不住

Q：hdfs中的路径占不占元数据的内存，如果要占，占据多少内存？？？
A：不同的版本还不一样

小文件对于集群产生的问题？？？

3、画出YARN的工作流程？？MapReduce在YARN上的执行流程、STORM在YARN上的执行流程，都是按照YARN的标准来走的，流程都是一样的。

4、你们使用的spark的运行模式？？？ spark --master(运行模式)
问题：local[2] local local[*] 的区别？？

Spark on YARN的工作流程？？？

client和cluster的区别？？

5、YARN的调度有几种？？？用的是哪种？？？
然后给一个案例如果申请的资源，在yarn队列里资源不够，怎么处理。

6、Spark用的版本？Spark内存管理，画出来，然后给一个案例，excutor要申请300内存的过程？？
如果是老手，要说是1.6版本，证明做过一段时间大数据
如果是新手，写2.1.0版本；PK上课穿插1.6版本

PK哥公司最近的版本是2.1版本

关于CDH：
群友问题：CM一键安装Hadoop，Hadoop一键安装hadoop2.6.0-cdh5.7.0
建议Spark使用社区版本；Spark大部分场景是提交yarn上执行的。
建议在调度机上部署我们需要的Spark版本（仅仅是一个客户端而已）

此时我们的Spark是外挂的，怎么监控Spark？？？？
最简单的方式：打开yarn的8088界面上看；不是在4040上（提交1000个作业呢，4040端口递增）

Impala才是cdh公司的亲儿子

7、shuffle管理的几种方式？有什么区别？你们的spark版本使用的是哪一种？？

8、你们HDFS高可用采用的是哪种？？NN落盘的两个文件叫什么？？主备NN实现高可用的流程？？

9、HDFS NN内存管理 ==> 关联到小文件管理

10、现场生产上一个案例：HDFS Block块丢失怎么办？？？解决方式？

11、查看hdfs上一个目录下文件数和空间大小的命令？？

hdfs dfs -du -s -h

12、Scala中Left和Right的区别？？

对于一个集合：val l = List(1,2,3,4,5,6,7,8,9)
reduceLeft(-)
reduceLeft(+)
reduceRight(-)
reduceRight(+)

13、Java多线程用到的锁有哪些？？？
公平锁、非公平锁、自旋锁
乐观锁、悲观锁

第二份面试题：
1、说说你对hadoop的认识：

1）广义、狭义的Hadoop
2）Hadoop的架构
3）Hadoop HA
4) yarn HA
5) 小文件的产生，小文件的处理

2、Hadoop1.X到Hadoop2.X的区别？？
区别：Hadoop1中没有yarn这个概念，jobtracker、tasktracker都是单点的；单点的东西生产不能用的，一有故障，生产全部瘫痪；2.0引入了yarn，来负责资源管理，mapreduce可以跑yarn；spark可以跑yarn

3、Hadoop生产上用什么文件格式和压缩？为什么

4、reduceByKey和groupByKey的区别？？

5、宽窄依赖

6、如何保证yarn的高可用性，yarn在挂掉后，未执行的作用怎么办？？

7、小文件合并的方案？？？
一个命令进行归档。。

第三份面试题：
1、简单说下hdfs的读文件和写文件的流程？？

2、每天的数据量有多大？？生产集群的规模有多大？？？
没做过的话说公司一天2 300G的数据，一共 2 3条业务线，多少数据量对应多少台机器。
大数据实战 6 7次课，可以自己进行计算。。
考虑到数据的增量，副本数，一台机器多大

3、说几个spark开发中遇到的问题、解决的方案

4、阐述下最近开发的项目，以及担任的角色位置？
大数据实战第二课，是自建的还是商业的？

自建的开发、运营；商业的阿里云平台

5、项目中数据倾斜的场景和解决方案

第四份面试题：
1、Hive中那些操作会触发MR，那些操作不能触发MR
简单的select不会走MR；聚合一定会触发

2、Hive触发MR转换过程

3、如何处理数据倾斜？

4、RDD中五大特性是哪几大特性？？
5句话分别对应源码中那几句话

5、介绍Spark中的隐式转换与使用？？

第五份面试题：
链家大数据面试题：

1、封装继承多台思想

2、shell命令（查询一个文件有多少行 wc -l ） chown修改文件权限

3、Spring aoc iop原理

4、JVM运行时数据区域？？？
问题：到底是传值还是传引用，方法区，本地方法栈

5、单例、工厂模式有什么

6、MapReduce计算流程

源码去读：RecordReader.java

首先有个文件split，有开始和结束，拿到url，拿到codec,能否支持分片，开始位置、结束位置

ORC Parquet需要有Hadoop底层支持

mapper.java
由于它是个接口，需要由子类来实现，
Mapper有没有实现类，处理完直接写到环形缓冲区，满了后刷新磁盘，。。。写到hdfs上
使用自己的语言来完成。。

Hive内部表和外部表

8、Hive与关系型数据库的区别
半毛钱关系都没，只是语法长得像

第六份面试题：
1、阐述HDFS生成文件的过程
应该指的是hadoop写文件的过程

2、Hadoop有哪些优化调优点
mapreduce

3、阐述Hive分区的理解？Hive分桶？

4、你们公司生产集群规模？

5、懂不懂CDH?

七牛云面试题：
1、Hive与hdfs的关系？

2、iNode和文件描述符

3、linux如何创建文件？？

4、JVM垃圾回收

5、hive与关系型数据库区别

6、hive的实现原理

7、spark与mr的区别？？

二三四五面试题：
Spark对于OOM从什么角度下手调整？？

蚂蚁金服编程题：
年/月/日/xxx.jpg，文件以这个形式组织
新建文件夹，将所有jpg文件拷贝到该文件夹，更名为年_月_日_XXX.jpg
监控文件夹，如果有增加的jpg文件，自动同步到新文件夹
jpg文件只增加不删除
hadoop2.0做了哪些改动？？
知道除了spark之外的哪些大数据处理框架？

StringBuilder和StringBuffer的区别？

HashMap和HashTable的区别

蚂蚁金服面试题：
1、小文件合并：归档

2、关注哪些名人的博客：至少说出5个

3、对大数据领域有什么自己的见解？？

4、JVM的内存模型？？JVM的垃圾收集器

hadoop3.0做了哪些改进？？

经典的题目：
1TB文件，取重复的词，top5指定的资源场景下，如何快速统计出来？??

网易大数据面试题：

Scala中map和foreach的区别？
Spark中map和foreach的区别？

补充？？？
SQL语句是如何转成Map Reduce运行的
https://www.cnblogs.com/Dhouse/p/7132476.html

join/group by：都是按照他们的条件进行shuffle，再利用mr的shuffle机制，相同的key分发到一个reduce上去，进行分发操作。

一个SQL是如何转换成Map Reduce作业的呢
explain：
1)把SQL解析成抽象语法树
2）遍历AST Tree，抽象出查询的基本组成单元
3）遍历QueryBlock，翻译为执行操作树
4）逻辑层优化器进行operatorTree操作

大数据中shuffle是性能杀手。

根据一定的规则进行map端数据分发到reduce上去
某一个或者某几个规则所对应的数据量比较大
木桶原理：

假设1有1亿条，2只有2条；木桶原理，一个木桶能装的水由最短的板决定
数据倾斜：能跑出来，但是比较慢
不能跑出来：OOM
join/group by怎么解决数据倾斜？？？因为相同特征的key被分发到了同一个节点，机器扛不住
使用Hive/MapReduce/Spark进行离线处理时的注意事项
1）input
格式问题
2）temp
中间过程：计算要快
3) output
格式问题

比如etl过后有一张大宽表；
直接查询性能较低；
去创建临时表；SQL1 、SQL2 ==> TEMP12 合理利用中间结果集

语法层面：set xxx = yyy;
reduce的个数怎么设置 ==》这个决定我们的输出文件个数

reduce多 ==》导致小文件多
reduce小 ==》导致跑的慢
权衡
————————————————
版权声明：本文为CSDN博主「zhikanjiani」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/zhikanjiani/article/details/99447354

奔跑de五花肉

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
若泽数据学员整理面试题

第一份面试题：1、自我介绍2、画出你们的大数据架构，然后针对架构提问，如何做到精准一次、小文件规避等https://blog.csdn.net/zhikanjiani/article/details/89284488参考第一个mapreduce离线处理项目，为什么你们选择mapreduce或者spark；不要把东西落到具体的业务上去，应该提升到通用的流程上去，是处理日志的还是处理...
复制链接

扫一扫