大数据实习生的面试总结

最新推荐文章于 2024-07-11 16:34:57 发布

weixin_30326741

最新推荐文章于 2024-07-11 16:34:57 发布

阅读量2.8k

点赞数 4

文章标签：大数据面试数据库

原文链接：http://www.cnblogs.com/lrxvx/p/10536220.html

版权

不同的公司面试内容不同，有的注重基础知识有的注重项目，对实习生，也就是应届生，更多的是基础因为没有什么工作经验，项目很多也不怎么样，所以也就问的少。下面是我的一点面试经验我面试次数不多，可能是运气比较好，几家就有了一个很满意的。一共面过两次大数据职位一次java，一次商务智能，数据分析的。第一次就是大数据的，数据平台开发，小公司，没有笔试，就是拿着简历上的...

摘要由CSDN通过智能技术生成

不同的公司面试内容不同，有的注重基础知识有的注重项目，对实习生，也就是应届生，更多的是基础

因为没有什么工作经验，项目很多也不怎么样，所以也就问的少。下面是我的一点面试经验

我面试次数不多，可能是运气比较好，几家就有了一个很满意的。一共面过两次大数据职位

一次java，一次商务智能，数据分析的。

第一次就是大数据的，数据平台开发，小公司，没有笔试，就是拿着简历上的项目问。因为是自己

做的，不是公司的项目，所以有很多问题，具体问了什么就不详说了，需要注意的是自己项目的一些

架构问题，是否合理，是否自己很清楚，或者说自己能很清楚的描述出来，自己画出架构图。问了一些

知识点的问题，比如sparkRDD，spark和hive的区别，spark的鲁棒性，推荐系统的冷启动问题，这么监控

推荐系统是准确的，怎么实时的监控，就是系统已经发布上线了，怎么知道推荐是有效的。此类问题。

解答：SparkRDD五大特性，

RDD是SparkCore的核心，底层操作的就是RDD

RDD也就是弹性分布式数据集，虽然是数据集但是却不能存储数据，只是存放的一段代码逻辑

五大特性：

1、 RDD是由一系列partition组成

2、 RDD的算子作用在partition上

3、 RDD之间有依赖关系

4、分区器作用在kv格式的RDD上

5、 partition对外提供最佳的计算位置，利于数据处理的本地化

弹性也就是容错性，RDD有依赖关系，可以根据前面的RDD计算出后面的RDD

RDD中的partition个数可多可少

分布式是RDD中的partition是分布在多个节点上

这大概就是关于RDD的介绍

Spark和hive的区别其实就是Spark和MR的区别，我也简单总结一下，

最低0.47元/天解锁文章

weixin_30326741

关注

4
点赞
踩
44

收藏

觉得还不错? 一键收藏
0
评论
大数据实习生的面试总结

不同的公司面试内容不同，有的注重基础知识有的注重项目，对实习生，也就是应届生，更多的是基础因为没有什么工作经验，项目很多也不怎么样，所以也就问的少。下面是我的一点面试经验我面试次数不多，可能是运气比较好，几家就有了一个很满意的。一共面过两次大数据职位一次java，一次商务智能，数据分析的。第一次就是大数据的，数据平台开发，小公司，没有笔试，就是拿着简历上的...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。