群里小伙伴的面试经验
富德保险
电话1面 30分钟:
1-自我介绍
2-介绍一下你最熟悉的项目?
3-你用Flink消费Kafka里面的数据做了什么处理?
4-Hive数仓的分层每层都做了一些什么操作?
5-对于报表展示这一块你对 Js Echarts 了解吗?
6-有这样一个场景: 你同时要用到流试过来的数据 和 数仓中的历史数据你知道怎么做的吗? 或者可不可以做到?
7-你对Spark了解吗? 说一下SparkStreaming 和 Flink的区别?
8-经过流试程序ETL的数据落地到了 MySQL中的话如何做进一步的处理呢?
9- 数仓的调优你知道哪些?
10-MapReduce的步骤熟悉吗? 说一说看
11职业规划?
12你有什么要了解的吗?
现场2面 3面 4人事面 5总监面
1- liunx如何查看被占用的端口?
netstat -anp |grep 82查看82端口的使用情况
2-Spark如何处理数据倾斜问题?
3- Java集合的体系了解?
4- Scala的样例类了解?
5-数仓维度建模可以说一下嘛?
星型模型 雪花模型
6-Kafka如何消费已经消费过了的数据的?
Conosumer.properties配置文件中有两个重要参数 auto.commit.enable:如果为true,则consumer的消费偏移offset会被记录到zookeeper。下次consumer启动时会 从此位置继续消费。 auto.offset.reset 该参数只接受两个常量largest和Smallest,分别表示将当前offset指到日志文件的最开始位置 和最近的位置。 如果进一步想控制时间,则需要调用SimpleConsumer,自己去设置相关参数。比较重要的参数是 kafka.api.OffsetRequest.EarliestTime()和kafka.api.OffsetRequest.LatestTim