如果查询一张表的多个数据 用多线程 用哪一个类_自测 | 13家大数据面试题

阅读之前可以先看看

金九银十的100道大数据面试题

你都会了吗?

46a0ef6b144b391d36e07c1b77ba2879.png

1.*云

一面(30分钟)

谈谈你对HDFS的了解Hadoop2.0做了哪些改动Spark与MR的区别在哪里知道除了Spark之外的大数据处理框架嘛Spark shuffle,说说StringBuilder与StringBuffer的区别HashMap与Hashtable的区别二叉树的数据结构是什么样的数据库索引的实现原理jvm垃圾收集器,挑一种讲讲

二面(50分钟)

讲讲你的日志流量分析系统项目小文件合并,为什么需要合并小文件呢讲讲NameNode与DataNode当数据还在跑的时候,我要查这个数据怎么办存储格式的选择 & 行式存储与列式存储的优劣为什么选择ORC,不选择parquet如果我select * 怎么办如果我要查一段时间区域的,怎么优化说说数据倾斜,怎么调优的说说你对Hive的理解Hive怎么转成MR的出现OOM,怎么办shuffle过程中,会将数据写到哪个buffer里去讲讲executor、core、task这些之间的关系平时怎么学习spark的除了大数据,会Spring嘛说说你还会些啥技能Spark与Scala的版本选择的是什么Spark为什么选择1.6.1 不去选择2.xSpark2.X做了哪些改动 & 知道这些是通过哪里去看嘛spark-submit --jars这个jar包放在哪里的副本放置策略

2.*道

简历上的3个项目依次介绍Scala中Nil,Option,yieldHDFS的写流程MapReduce与Spark的区别MapReduce的适用场景常用的10个linux命令做过机器学习相关的嘛数据倾斜的调优出现OOM之后,如何进行调优会写脚本吗

3.*创科技

数组与链表的区别二叉树jvm内存模型写代码:2个数组去重面试官介绍公司的业务

4.**fun

现场笔试

选择题+编程题+SQL题选择题主要是一些大数据的基础SQL题对窗口函数进行了考察

一面(25分钟)

MapReduce shuffle与Spark shuffle的区别其实就是问:Sort Shuffle与Hash Shuffle的区别因为MR的shuffle多了排序阶段与合并阶段换种形式问Spark的shuffle而已日志告警的项目a.为什么需要加上Kafka,Flume也可以直接对接Spark Streaming的,为什么需要加上Kafkab.为什么要将数据从String格式改造成Json格式,String格式的读进来也可以转成DF,然后注册成临时表啊c.String转为Json是怎么改造的什么是迭代式计算

5.美*

一面(45分钟)

介绍下你做的项目吧数据统一管理平台,我挺感兴趣的,你说说吧我大概知道是怎么回事了,java web这块你参与开发了吗你刚刚项目提到了元数据,你能说说hive的元数据管理嘛,对它了解嘛还是hive,你对hive有哪些原理性了解呢之后说了hive --> mr的过程你提到了谓词下推,举个sql的例子,说说谓词下推是怎么回事知道AST、operator tree这些长什么样吗那你的hive转mr过程是怎么了解的呢?那么现在有个问题,如果有个用户:去做了个全表扫描,去查数据,即便我们要求了要指定分区去查,但是他都没有这样做;那么,从你刚刚hive转mr过程的阶段中,你觉得应该从哪个阶段开始避免呢?面试官:我给你整理下,你刚刚说的过程吧:hive ql --> ast ast --> qb qb --> operator tree 你觉得这三个哪个阶段去避免比较好呢除了谓词下推,还能说说其它的优化嘛?别说数据倾斜的调优你刚刚提到了可分割的压缩格式,说下哪些压缩格式支持分割呢?jvm了解不,说下垃圾收集算法平常用java和scala语言哪个多点如果我现在要使用map集合,你觉得哪种适合多线程情况下进行访问如何去线程监控Spark 出现OOM,你觉得该怎么进行调优呢?不去动jvm的参数如果大表与小表join,出现问题,你觉得该怎么优化那如果现在只是单纯的数据量过大了,出现OOM,该怎么办呢?那我现在如果在shuffle过程中,增加并行度,是否能缓解数据倾斜的情况呢?你对未来的规划是什么?(五年内)向面试官询问了,部门的大数据业务、对自己未来发展的建议

二面(40分钟)

ThriftServer的HA如何去实现,能说下实现的思路嘛能说下Zookeeper的watch机制是如何实现的嘛?场景题:现在有1个client,2个server,当我动态加入一台机器,或者删除一台机器,或者某台机器宕机了,client该如何去感知到,说下实现思路(不使用Zookeeper)

6.*得信息

简历上的项目介绍,重点RDD介绍爬虫、分类算法介绍JVM介绍

7.汽*之家(大数据部–基础平台组)

实习时间,能实习多久MapReduce的执行流程map最多可以有几个,combiner阶段,举2个不能使用combiner的例子hql转MapReduce的流程说下Spark Shuffle调优,调哪几个参数Spark Shuffle有哪几个类hashshuffle的consolidate机制被移除取代了,为什么?你觉得它有什么缺陷计算机网络,三次握手,为什么需要三次在这个过程中,可以携带数据嘛Synchronized与volatile的区别二分查找算法的时间复杂度、空间复杂度说下你的能耗资源统计分析系统项目你们最终的数据是存哪的?为什么使用es,而不是使用关系型数据库(MySQL)重跑的设计,是指定批次重跑嘛,怎么设计的ResourceManager HA的设计,如何设计?平台的权限怎么做的?面试官最后主动介绍了下部门,对我的建议是java基础不行,没做过相关的项目,真实工作中不可能就管一块

8.蚂*金服(保险事业群)

项目中的亮点,说说小文件合并、整条链路的重跑 设计技术选型:MapReduce VS Spark日志格式是怎么样的项目开发的团队有多少人,规模多大关于Flume 与 Spark是怎么学习的xxx专业是你的高考第一志愿吗除了日志流量分析项目,还有哪些项目说了Hive的项目,被面试官指太简单有没有做个Web相关的有没有关注名人的博客对大数据领域的看法有没有其它的兴趣爱好

9.猫*

一面

自我介绍Hive窗口函数你用过哪些?哪些场景下使用的,有什么功能?left join、right join、join的区别rdd的特性spark怎么划分stage哪些操作出发job (trasformation action)spark参数调优spark数据倾斜调优?如何进行调优?数据倾斜不用spark处理,可以用hive处理吗?hive中也有一个设置参数加随机数你知道吗?说下用过哪些linux命令spark wordcount代码口述java 常用集合:hashtable、hashmap、concurrenthashmapspring ioc aop 实现原理flume主要用来做什么mysql索引原理spring bean的生命周期jvm了解吗 简单说下jvm原理 GC机制spring DI 机制kafka 消费者写过吗 offset偏移量怎么维护?yarn 集群两种模式知道吗?有什么区别?mr运行流程mr中的shuffle阶段的优化现在有两张表 user (用户id):所有用户 订单表(用户id 订单id 时间) :今天的所有订单需要知道今天没有买到票的用户两种方式 1.not in 效率不行 2.left join查询订单表同一天购买两个订单的用户count求和 having count(*)=2(having后面可以加聚合函数)每个用户买过的第二条订单rdd里面是什么样的结构数据结构与算法相关:快排、二叉树遍历 递归与非递归、检查一个链表是否有环 知道几种方法?

二面

自我介绍项目相关spark中的数据倾斜spark提交一个程序怎么划分spark数据倾斜你是怎么处理的数据解析你使用的什么(spark sql )离线项目相关:离线数据处理spark sql最终生成多少个文件最终生成的文件是否存在小文件的问题自己搭建过集群环境吗hive sql 写的多吗,是写sql 多还是代码多,mr写过吗kafka topic会有多个partition?为什么要建立partition?hive的优化hive两个表join一个大表一个小表 小表满足多大要求才会放入内存mapjion原理 mapjoin从那个版本开始?用过spring吗?spring dao层有什么用?用的hibernate还是mybatis?spring 数据库连接池有哪些类型?用的哪一个?spring配置多个库支持吗?linux命令:查看机器负载情况?查看进程占用的端口?看内存?看磁盘?我有三个线程 要求都达到一种状态之后在继续执行问我能去他们那边面试吗?或者线下宣讲会

10.海**视

一面(电话25分钟)

数据倾斜的解决,怎么知道哪里倾斜自定义类的广播cache机制,rdd和df的cache什么区别spark动态内存,堆内和堆外rdd算子,map,mappartitions,foreach,union宽依赖,窄依赖spark DAG过程,doOnrecive,eventloop执行过程stage和task怎么分类spark调优概念,executor,worker,job用没用过spark什么log,没记住讲讲sparkSQL数据清洗过程

二面(现场30分钟)

问了很多项目相关的RDD有什么特点?如果RDD链路很长如何避免重新计算kafka offset了解吗项目中如何较少网络传输如何保证存储和索引的一致性项目中解决过的比较复杂的问题

11.vi**

自我介绍问项目相关tcp udp http 和 https线程 进程 死锁多线程 锁分布式锁HashMap底层HDFS、MapReduce工作流程awk和sed命令

12.知*

合并2个有序链表java三大特性的理解,如何去应用设计模式jvm内存分配、垃圾回收算法java集合框架Spark shuffle和MapReduce shuffle的区别Scala的柯里化和隐式转换函数式编程

13.猪八*

MapReduce的工作流程RDD的五大特性项目相关
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值