大数据开发工程师 面试题

这篇博客主要涵盖了大数据开发面试中常见的问题,包括实习期间的自我介绍与技术问题,如过拟合、欠拟合的处理,Spark的RDD操作,排序算法,聚类算法等。工作两年后的面试则更注重实际操作和优化,涉及Hive优化、Spark的任务提交流程、数据仓库结构、数据倾斜处理等。同时,文章也提及了Flink的反压处理、Exactly-Once语义以及处理数据倾斜和反压问题的方法。
摘要由CSDN通过智能技术生成

一  找实习时

一般是自我介绍,个人是介绍学校,毕业时间,专业,实习经历,项目经历,一般这时候会开始问你问题,否则接着介绍在校获奖,有哪些社会实践经验.

本人一般用scala,但遇到比较多问Java的情况,建议多学习 java ,拓展技术面。

1,什么是过拟合,欠拟合?  如何处理

2,sparkRDD的算子操作有哪些?

3,常用排序算法,内容时间复杂度(最好,最差,平均),稳定性?

4,bagging对于基分类器的选择????????????

5,kmeans的原理?还有哪些其他的聚类算法?

6,十大数据挖掘算法基本原理,适用场景,优缺点?

7,如何进行特征选择?如何进行降维?

8,聚类算法有哪些?分类算法有哪些?

9,协同过滤基于内容和基于用户的原理

10,spark持久化两种比较?

11、数据库sql语句使用groupby,sortby,having

 

二  工作两年

这时会问你为什么要从前公司离职,想好理由呀!

1,现场写代码,冒泡

2,hive 的优化:参数 和 sql 

3,spark 宽依赖和窄依赖的区别

4,现场写SQL

5,sqoop 抽数 使用,增量抽取,增量字段选择,map 数量

6,sp

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值