大数据工程师（开发）面试系列（7）

最新推荐文章于 2024-05-13 20:22:35 发布

司小幽

最新推荐文章于 2024-05-13 20:22:35 发布

阅读量1.1w

点赞数 7

分类专栏：大数据算法与数据结构求职面试文章标签：大数据面试 spark 算法

本文链接：https://blog.csdn.net/BlackEnn/article/details/63728851

版权

大数据同时被 3 个专栏收录

15 篇文章 2 订阅

订阅专栏

求职面试

11 篇文章 13 订阅

订阅专栏

算法与数据结构

3 篇文章 0 订阅

订阅专栏

#MapReduce
##1. 不指定语言，写一个WordCount的MapReduce
我：最近刚学了scala，并且就有scala版本的WordCount，刚好学以致用了一下：

补：至于java版本，虾皮博主的一篇文章讲解的非常细致：
Hadoop集群（第6期）_WordCount运行详解

##2. 上述写的程序中.map((_,1))的输出结果是什么
我：通过flatMap将其扁平化，而.map((_,1)) 则是每个出现单词，1这样的形式展现，此时还没归并。

##3. 你能用SQL语句实现上述的MapReduce吗？要求按照基于某个字段的值的频次倒序,并且以维度——频次的形式结果展现?
我：基于某个字段——决定了要用group By，频次要用count聚合，倒序自然少不了desc。
补：框架搭好就是往里塞了：

D表数据

基于id维度频次倒序

##4.给你一份乱序的100万个数字的文件，你如何来排序？
我：先拆分成若干小的，然后再排(思路是从希尔排序出发的)
补：内部排序算法：希尔排序

#Spark
##1. 说一说Spark程序编写的一般步骤？
我：初始化，资源，数据源，并行化，rdd转化，action算子打印输出结果或者也可以存至相应的数据存储介质
补：具体的可看下图：

spark编程模型

##2. Spark有哪两种算子？
我：Transformation（转化）算子和Action（执行）算子。

##3. Spark提交你的jar包时所用的命令是什么？
我：submit。
面试官：spark-submit？
我：嗯，spark-submit。

##4. Spark有哪些聚合类的算子,我们应该尽量避免什么类型的算子？
我：aggeragate
面试官：还有呢？
我：记不清了。。。
面试官：还有你刚刚写的那个groupByKey哈
补：

在我们的开发过程中，能避免则尽可能避免使用reduceByKey、join、distinct、repartition等会进行shuffle的算子，尽量使用map类的非shuffle算子。这样的话，没有shuffle操作或者仅有较少shuffle操作的Spark作业，可以大大减少性能开销。

##5. 你所理解的Spark的shuffle过程？
我：spark shuffle处于一个宽依赖，可以实现类似混洗的功能，将相同的Key分发至同一个Reducer上进行处理。
补：详细探究Spark的shuffle实现

##6. 你如何从Kafka中获取数据？
我：topic
补：分布式消息系统：Kafka

##7. 对于Spark中的数据倾斜问题你有什么好的方案？
我：可以先分析基数大造成数据倾斜的维度，将其适当的拆分。
补：Spark性能优化指南：高级篇
#编程
##1.如果我有两个list，如何用Python语言取出这两个list中相同的元素？
我：list(set(list1).intersection(set(list2))),通过set 的intersection取交集的函数实现相同元素的提取。

##** 2.请你给出在Python中较快获取一个元素的数据结构，并且说出其时间复杂度以及它的缺陷是什么？**
我：因为之前也在做一些leetcode上的题目，多多少少重温了下数据结构，当时脑海里呈现的是数组方便查找，队列和栈方便插入删除，所以一听到较快获取果断数组了。
面试官：dict（字典）
我：厉害！！
面试官：那它的时间复杂度你晓得嘛？
我：不是特别了解，O（1），常数时间复杂度？
面试官：嗯，那你知道它的缺陷吗？
我：（中午吃撑了，TradeOff哈）不晓得
面试官：空间复杂度较高哈
补：
反思了一下，之所以说错，可能和以前学习算法时，起承转合的过度，并未将栈、队列和map，或者dict直接比较，而是从数组切换到队列和栈，所以就和之前的那个PUT和POST差不多，训练逻辑正确，确实数组查询记录方便，但训练广度有些多样性不够。

算法备忘录——基础数据结构与复杂度
 常用数据结构和算法操作效率的对比总结

##3. 做几道OJ的题目（英文的），说一说这个问题的要求和注意点，以及可以获得正确结果的你的思路？
恢复IP地址

Given a string containing only digits, restore it by returning all possible valid IP address combinations.
Example
Given “25525511135”, return
[
“255.255.11.135”,
“255.255.111.35”
]
Order does not matter.

我：思考了一会儿，没想出来，只能想出个不通用的思路。
面试官：给你个提示，尝试用树这个数据结构。
补：此处埋一个坑，学完树的数据结构再回来解决。

快乐数

Write an algorithm to determine if a number is happy.
A happy number is a number defined by the following process: Starting with any positive integer, replace the number by the sum of the squares of its digits, and repeat the process until the number equals 1 (where it will stay), or it loops endlessly in a cycle which does not include 1. Those numbers for which this process ends in 1 are happy numbers.
Example
19 is a happy number
1^2 + 9^2 = 82
8^2 + 2^2 = 68
6^2 + 8^2 = 100
1^2 + 0^2 + 0^2 = 1

我：思路是模拟过程法，即按照它验证一个数是否是快乐数的方式进行模拟，当然也有些取巧的方式，如果某个中间结果曾出现过，妥妥滴死循环嘛，即刻跳出。
面试官：思路是对的
我：我觉得这会TLE，肯定有取巧的方法（这道题目之前好像接触过）
补：回去搜了一下，发现之前一直求助的一个大神的博客通过模拟过程用Python实现的：
Happy Number ***(之前的怀疑有更巧方法在于时常保持偷懒的思维也是必要的)***

##4. 你常用的IDE有哪些？
我：Java：Eclipse；Python：PyCharm；Scala：IntelliJ IDEA；Shell：VIM

##5. 你了解设计模式吗？
我：不了解，但以后回去买本O’Really的《设计模式》
补：封面如下：

设计模式

##6. 什么是Restful API？
我：由于对Restful的了解只停留在使用层面，给我的感觉像是一种资源的提交获取，GET获取，POST/DELETE/PUT都可以看作是一种提交操作
补：

【专业定义】：一种软件架构风格，设计风格而不是标准，只是提供了一组设计原则和约束条件。它主要用于客户端和服务器交互类的软件。基于这个风格设计的软件可以更简洁，更有层次，更易于实现缓存等机制。

RESTful百度百科

Options

#Devops
##1. 数据库读写分离的目的是什么？
我：①减轻负载；②权限控制
补：读写分离的作用
看了上面的文章，减轻负载是首要目的，至于权限控制，更像是一种实现方式，不像目的。

##2. ZooKeeper是什么？非大数据领域，我们可以用ZooKeeper来做些什么？
我：ZooKeeper是分布式协调组件，非大数据领域，可以用ZooKeeper来做HA或者存储数据，比如配置信息啥的。(Znode)
补：ZooKeeper 典型应用场景一览

司小幽

关注

7
点赞
踩
54

收藏

觉得还不错? 一键收藏
打赏
4
评论
大数据工程师（开发）面试系列（7）

MapReduce1. 不指定语言，写一个WordCount的MapReduce我：最近刚学了scala，并且就有scala版本的WordCount，刚好学以致用了一下：补：至于java版本，虾皮博主的一篇文章讲解的非常细致： Hadoop集群（第6期）_WordCount运行详解2. 上述写的程序中.map((_,1))的输出结果是什么我：通过flatMap将其扁平化，而.map((_,1)
复制链接

扫一扫