点击上方 "大数据肌肉猿"关注, 星标一起成长
后台回复【加群】,进入高质量学习交流群
本文是学习群的一个在杭州做.net的同学转型大数据时,在杭州面试总结的面经知识点。该同学转型经历可以参考:两年 .net 开发转型大数据,上岸阿里P6
一、若干中小公司
1..mapreduce过程介绍一下
2.项目中用到的hive存储结构有哪些
3.查看连续5天登陆的用户
4.spark 的yarn集群的cluster模式运行和client模式运行的区别是什么
5.spark调优你知道的有哪些?
6.RDD宽依赖和窄依赖的区别
7.RDD是什么
8.spark sql和hive sql的开窗函数的格式是怎样的
9.对数据仓库有什么了解?
10.项目中的集群规模是怎样的?
11.介绍一下项目的整体流程?
12.sqoop拉取mysql业务数据时,拉取的频率太高,导致数据库压力过大,出现一些慢查询,怎么解决?
13.每天的增量数据大概是多少?
14.当前一些同步的工具和性能有受到一些影响吗,这边有做一些什么优化吗?
15.mq如何避免重复消费?如何避免消息丢失?(这是自己引导面试官问的,已准备充分,子弹充沛,突突就完事了)
16.线上环境的垃圾收集,jvm参数是怎么配置的,如果要求响应速度比较快的话,应该用什么垃圾收集器?
17.根据线上GC频不频繁,从而定位一些问题,如何查看GC频不频繁这些问题(比如说GC多少次,GC的频率)?
18.线上环境有遇到过代码上的一些死循环,和一些内存OOM的问题吗?怎么去排查解决的?
19.有这样一个场景,有一些数据,这些数据大部分相互之间是独立的,处理不存在依赖,目