杭州公司大数据面试题汇总

本文汇总了一位.net开发者转型大数据时在杭州面试遇到的问题,涵盖了mapreduce、hive、spark、sqoop、jvm调优、mysql、数据仓库、hadoop高可用等知识点,包括面试中的实际场景和技术选型讨论。
摘要由CSDN通过智能技术生成

点击上方 "大数据肌肉猿"关注, 星标一起成长

后台回复【加群】,进入高质量学习交流群

2021年大数据肌肉猿公众号奖励制度

本文是学习群的一个在杭州做.net的同学转型大数据时,在杭州面试总结的面经知识点。该同学转型经历可以参考:两年 .net 开发转型大数据,上岸阿里P6

一、若干中小公司

1..mapreduce过程介绍一下

2.项目中用到的hive存储结构有哪些

3.查看连续5天登陆的用户

4.spark 的yarn集群的cluster模式运行和client模式运行的区别是什么

5.spark调优你知道的有哪些?

6.RDD宽依赖和窄依赖的区别

7.RDD是什么

8.spark sql和hive sql的开窗函数的格式是怎样的

9.对数据仓库有什么了解?

10.项目中的集群规模是怎样的?

11.介绍一下项目的整体流程?

12.sqoop拉取mysql业务数据时,拉取的频率太高,导致数据库压力过大,出现一些慢查询,怎么解决?

13.每天的增量数据大概是多少?

14.当前一些同步的工具和性能有受到一些影响吗,这边有做一些什么优化吗?

15.mq如何避免重复消费?如何避免消息丢失?(这是自己引导面试官问的,已准备充分,子弹充沛,突突就完事了)

16.线上环境的垃圾收集,jvm参数是怎么配置的,如果要求响应速度比较快的话,应该用什么垃圾收集器?

17.根据线上GC频不频繁,从而定位一些问题,如何查看GC频不频繁这些问题(比如说GC多少次,GC的频率)?

18.线上环境有遇到过代码上的一些死循环,和一些内存OOM的问题吗?怎么去排查解决的?

19.有这样一个场景,有一些数据,这些数据大部分相互之间是独立的,处理不存在依赖,目

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值