一 找实习时
一般是自我介绍,个人是介绍学校,毕业时间,专业,实习经历,项目经历,一般这时候会开始问你问题,否则接着介绍在校获奖,有哪些社会实践经验.
本人一般用scala,但遇到比较多问Java的情况,建议多学习 java ,拓展技术面。
1,什么是过拟合,欠拟合? 如何处理
2,sparkRDD的算子操作有哪些?
3,常用排序算法,内容时间复杂度(最好,最差,平均),稳定性?
4,bagging对于基分类器的选择????????????
5,kmeans的原理?还有哪些其他的聚类算法?
6,十大数据挖掘算法基本原理,适用场景,优缺点?
7,如何进行特征选择?如何进行降维?
8,聚类算法有哪些?分类算法有哪些?
9,协同过滤基于内容和基于用户的原理
10,spark持久化两种比较?
11、数据库sql语句使用groupby,sortby,having
二 工作两年
这时会问你为什么要从前公司离职,想好理由呀!
1,现场写代码,冒泡
2,hive 的优化:参数 和 sql
3,spark 宽依赖和窄依赖的区别
4,现场写SQL
5,sqoop 抽数 使用,增量抽取,增量字段选择,map 数量
6,sp