大数据面试题1

大数据面试过程中被问到的一些问题:

1、关系型数据库中的存储过程和索引?

2、Hive中的join知识点?

3、手写代码 用Saprk实现PageRank的第一轮迭代(初始每个页面票面值为1)

4、什么是多态?

5、什么情况下表现为多态?

6、静态变量和非静态变量的区别?

7、静态方法中能调用非静态方法吗?为什么?

8、java中final关键字有什么作用?

9、error与Exception区别?

10、hive中null数据如何存储?

11、Hive中row_number()、dense_ran、rank、ntile区别

12、什么叫朴素贝叶斯?

13、kafka是什么?为什么要使用kafka?

14、什么叫NIO(同步非阻塞)?

15、kafka中为什么要有partition?

16、topic是什么?

17、spark的shuffle是什么概念?  shuffle是随机分组的概念

18、zookeeper是做什么用的?

19、HBase有哪些优化?

20、redis为什么速度快

21、手写单例模式

22、解释下什么叫观察者模式,适用的场景

23、在开发中的遇到的困难和问题

24、udf和udaf写过吗?有什么区别?有一个场景,用udf实现一个字段自增怎么弄?

25、kafka数据什么时候落地磁盘?kafka中offset的编号规则是什么?

26、storm的容错机制

27、怎么优化shffle

28、rdd怎么转dataFrame

29、OOM的原因?如何分析定位并解决的?

30、a、b两个文件 存的都是url  内存有限  怎么找到a、b相同的url

31、多线程有几种创建方式?

32、代码怎么确定二叉树的高度?

33、spark提交一个任务的流程

34、快排的思想?二分法的时间复杂度?

35、spark和storm的区别?

36、persist和checkpoint的区别

37、spark和mapreduce的对比

38、一个50亿行的文件,存的都是数字,内存有限  怎么找到中位数

39、hashmap hashtable concurrenthashmap 区别

40、sqoop怎么增量导入数据

41、kafka  topic容错机制  高水位机制

42、zookeeper原子广播协议

43、hbase优化  rowkey设计

44、hive的优化  数据倾斜

45、内部表外部表的区别  hdfs数据导入到hive的语法

46、cache和persist的区别 

47、为什么使用Redis?使用Redis有哪些好处?

48、Redis 常见的性能问题都有哪些?如何解决?

49、Spark on Mesos中,什么是的粗粒度分配,什么是细粒度分配,各自的优点和缺点是什么?

50、简单说一下hadoop和spark的shuffle相同和差异?

更多面试题持续更新......

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值