易鑫车贷(大数据)
1.自我介绍,问了java项目,会不会springboot,在公司中经常做什么
2.问公司架构,每日数据量
3.Flume里面的channel用的是哪种,你公司用这种架构的优势在哪里,公司平台用什么搭的(画架构图),处理数据你们Spark资源用了多少,怎么分配
4.每日工作是什么,是否了解权限控制,最后数据存储到哪里,怎么展示,用的是HUE吗?怎么控制权限,数据怎么查看对错是否有问题
5.Java了解多少,在java项目中做的什么
6.手写二分查找
7. JVM模型及调优(画图)垃圾回收算法(画图),Map了解多少(画图原理),String m="a"+"b"内存图 几个对象,StringBuffer和StringBuilder区别
8.公司架构(画图),Java负责哪里,大数据负责哪里
9.两个栈,一个栈里面的数据是无序的,怎么到另一个栈里面是有序的
10.什么叫拦截器,拦截器的原理,是否写过拦截器,权限会不会控制
11.自我评价,优势在哪里,期望薪资,离职薪资,离职原因
熙城紫光(大数据)
1.说一个自己最近做的项目,架构如何搭的,每日数据量是多少,Kafka分区多少,每秒数据多少,你们公司有多少数据每天
2.RDD是什么,他的弹性体现在哪里
3.Spark On Yarn上的工作原理(画图),YarnCluster和YarnClient的区别
4.SparkStreaming中的窗口函数怎么理解的,Kafka和Spark之间的整合是怎么整合的,偏移量保存到哪里,什么时候保存
5.数据报错了怎么监控,通过什么工具
魔秀科技(大数据)
1.自我介绍,手写wordcount,分析每个算子,主要问flatmap和map的区别,简单的原理不算,要从源码剖析
2.画DAG和宽窄依赖,产生Stage的原因。Join会不会发生shuffle,如果不会请说明理由,如果会哪种会哪种会(画图讲解)
3.scala语言写一个二次排序不要用Spark算子。
4.Spark中的任务工作原理
宇信科技(大数据)
1.自我介绍,说一下你的项目,大数据的架构(数据流程)
2.一共多少人,怎么分组,你负责哪块
3.一共多少台服务器,内存多大,几个核
4.为什么一个网站流量分析需要用到这么多机器
5.Kafka连接spark-streaming有几种连接方式
6.Kafka怎么保证数据不会被重复消费
7.Hive的版本
8.Hive-sql在哪执行,使用的命令行方式还是啥工具
9.介绍一下Hbase,列存储和行存储的区别,有啥特点
10.整个大数据架构搭建用了多长时间
11.说一下mapreduce的shuffle过程,缓冲区大小,阈值大小,reduce端怎么拿数据,分片的大小,个数,如何在不改变配置文件的前提下让分片大小变成64M
- END -
长风破浪会有时,直挂云帆济沧海!