不同的公司面试内容不同,有的注重基础知识有的注重项目,对实习生,也就是应届生,更多的是基础
因为没有什么工作经验,项目很多也不怎么样,所以也就问的少。下面是我的一点面试经验
我面试次数不多,可能是运气比较好,几家就有了一个很满意的。一共面过两次大数据职位
一次java,一次商务智能,数据分析的。
第一次就是大数据的,数据平台开发,小公司,没有笔试,就是拿着简历上的项目问。因为是自己
做的,不是公司的项目,所以有很多问题,具体问了什么就不详说了,需要注意的是自己项目的一些
架构问题,是否合理,是否自己很清楚,或者说自己能很清楚的描述出来,自己画出架构图。问了一些
知识点的问题,比如sparkRDD,spark和hive的区别,spark的鲁棒性,推荐系统的冷启动问题,这么监控
推荐系统是准确的,怎么实时的监控,就是系统已经发布上线了,怎么知道推荐是有效的。此类问题。
解答:SparkRDD五大特性,
RDD是SparkCore的核心,底层操作的就是RDD
RDD也就是弹性分布式数据集,虽然是数据集但是却不能存储数据,只是存放的一段代码逻辑
五大特性:
1、 RDD是由一系列partition组成
2、 RDD的算子作用在partition上
3、 RDD之间有依赖关系
4、 分区器作用在kv格式的RDD上
5、 partition对外提供最佳的计算位置,利于数据处理的本地化
弹性也就是容错性,RDD有依赖关系,可以根据前面的RDD计算出后面的RDD
RDD中的partition个数可多可少
分布式是RDD中的partition是分布在多个节点上
这大概就是关于RDD的介绍
Spark和hive的区别其实就是Spark和MR的区别,我也简单总结一下,