前几日驱车30公里,来到徐庄苏宁总部,参加面试。
随接待上楼,看了眼工作环境,嗯,比中兴多姿多彩一些,有点互联网的样子。
2个面试官与我3人,在休息区的一个角落坐了下来。
进入正题~
开门见山,自我介绍都不需要。。。直接问技术
1. spark的宽窄依赖?==========老问题了
2. 宽依赖是否一定触发shuffle?======是
3. 举了一个他们具体的数据倾斜的场景,让我给解决方案。
其实就是某个key的真实数据太大了。=======直接过滤出来,单独处理,增加分区数,或者key加散列稀释,处理后,再还原。
4. spark streaming滑动窗口和滚动窗口的区别?=====我一直以为是一个概念。。就简单说了下滑动窗口
5. spark任务在yarn上执行的流程?======先向resourcemanager申请资源,分配一个am,然后am选取一个节点启动driver,初始化sc,在各节点启动容器,分发任务,执行。当然各种集群模式下,有细微差别,简单叙述了一下。
6. spark的stage是怎么划分的?task是怎么划分的?======stage是根据shuffle划分,stage是一组task的集合,简单说了一下driver端的任务调度器,还好看过这方面的源码。。
7. hadoop的脑裂是什么?产生原因?怎么解决?=====ha情况下,2各nn同时提供服务。可能是由于网络中断引起的,目前是采取隔离机制,让假死的nn不提供服务。
8. hdfs读取文件的流程?======简单,先去nn拿元数据,再去对应dn读
9. flume有哪些source?哪些sink?====简单,source有tcp,dir,kafka等,sink有hdfs,es等,官网有详细文档,用到直接去查。不死记
10, spark开发遇到的问题,解决的最有成就感的?======我直接把最近项目遇到的spark临时目录撑爆linux目录句柄最大个数的问题说了一下。效果还不错。
11. zk的节点类型有哪几种?====我只记得临时的。。。还有个,就是对应永久的,反义词都想不出来。悲剧,后面还问了些zk的问题,不记得了
技术方面,就问了以上这些,都是大数据相关的,也没有问java,更没有问web相关的。面的部门,说是以后想搞人工智能的,但是算法也没问。目前应该也是有该想法。
上面都是其中一人问的,接下来另一个面试官登场。。
他不问技术。问我在中兴担任的角色。我吹嘘了一番,带了2个外包,负责跟踪他们模块的开发进展,以及技术方面的指导。嗯。再后面就是吹一下我的职业规划,以及为何离开中兴。
再后来,就是接到人事电话,谈薪资。over~