大数据面试过程中被问到的一些问题:
1、关系型数据库中的存储过程和索引?
2、Hive中的join知识点?
3、手写代码 用Saprk实现PageRank的第一轮迭代(初始每个页面票面值为1)
4、什么是多态?
5、什么情况下表现为多态?
6、静态变量和非静态变量的区别?
7、静态方法中能调用非静态方法吗?为什么?
8、java中final关键字有什么作用?
9、error与Exception区别?
10、hive中null数据如何存储?
11、Hive中row_number()、dense_ran、rank、ntile区别
12、什么叫朴素贝叶斯?
13、kafka是什么?为什么要使用kafka?
14、什么叫NIO(同步非阻塞)?
15、kafka中为什么要有partition?
16、topic是什么?
17、spark的shuffle是什么概念? shuffle是随机分组的概念
18、zookeeper是做什么用的?
19、HBase有哪些优化?
20、redis为什么速度快
21、手写单例模式
22、解释下什么叫观察者模式,适用的场景
23、在开发中的遇到的困难和问题
24、udf和udaf写过吗?有什么区别?有一个场景,用udf实现一个字段自增怎么弄?
25、kafka数据什么时候落地磁盘?kafka中offset的编号规则是什么?
26、storm的容错机制
27、怎么优化shffle
28、rdd怎么转dataFrame
29、OOM的原因?如何分析定位并解决的?
30、a、b两个文件 存的都是url 内存有限 怎么找到a、b相同的url
31、多线程有几种创建方式?
32、代码怎么确定二叉树的高度?
33、spark提交一个任务的流程
34、快排的思想?二分法的时间复杂度?
35、spark和storm的区别?
36、persist和checkpoint的区别
37、spark和mapreduce的对比
38、一个50亿行的文件,存的都是数字,内存有限 怎么找到中位数
39、hashmap hashtable concurrenthashmap 区别
40、sqoop怎么增量导入数据
41、kafka topic容错机制 高水位机制
42、zookeeper原子广播协议
43、hbase优化 rowkey设计
44、hive的优化 数据倾斜
45、内部表外部表的区别 hdfs数据导入到hive的语法
46、cache和persist的区别
47、为什么使用Redis?使用Redis有哪些好处?
48、Redis 常见的性能问题都有哪些?如何解决?
49、Spark on Mesos中,什么是的粗粒度分配,什么是细粒度分配,各自的优点和缺点是什么?
50、简单说一下hadoop和spark的shuffle相同和差异?
更多面试题持续更新......