大数据实习生的面试总结

不同的公司面试内容不同,有的注重基础知识有的注重项目,对实习生,也就是应届生,更多的是基础因为没有什么工作经验,项目很多也不怎么样,所以也就问的少。下面是我的一点面试经验我面试次数不多,可能是运气比较好,几家就有了一个很满意的。一共面过两次大数据职位一次java,一次商务智能,数据分析的。 第一次就是大数据的,数据平台开发,小公司,没有笔试,就是拿着简历上的...
摘要由CSDN通过智能技术生成

      不同的公司面试内容不同,有的注重基础知识有的注重项目,对实习生,也就是应届生,更多的是基础

因为没有什么工作经验,项目很多也不怎么样,所以也就问的少。下面是我的一点面试经验

我面试次数不多,可能是运气比较好,几家就有了一个很满意的。一共面过两次大数据职位

一次java,一次商务智能,数据分析的。

       第一次就是大数据的,数据平台开发,小公司,没有笔试,就是拿着简历上的项目问。因为是自己

做的,不是公司的项目,所以有很多问题,具体问了什么就不详说了,需要注意的是自己项目的一些

架构问题,是否合理,是否自己很清楚,或者说自己能很清楚的描述出来,自己画出架构图。问了一些

知识点的问题,比如sparkRDD,spark和hive的区别,spark的鲁棒性,推荐系统的冷启动问题,这么监控

推荐系统是准确的,怎么实时的监控,就是系统已经发布上线了,怎么知道推荐是有效的。此类问题。

解答:SparkRDD五大特性,

RDD是SparkCore的核心,底层操作的就是RDD

RDD也就是弹性分布式数据集,虽然是数据集但是却不能存储数据,只是存放的一段代码逻辑

五大特性:

1、 RDD是由一系列partition组成

2、 RDD的算子作用在partition上

3、 RDD之间有依赖关系

4、 分区器作用在kv格式的RDD上

5、 partition对外提供最佳的计算位置,利于数据处理的本地化

弹性也就是容错性,RDD有依赖关系,可以根据前面的RDD计算出后面的RDD

RDD中的partition个数可多可少

分布式是RDD中的partition是分布在多个节点上

 这大概就是关于RDD的介绍

Spark和hive的区别其实就是Spark和MR的区别,我也简单总结一下,

  • 4
    点赞
  • 44
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值