大数据模拟面试题

孙晨c

已于 2022-12-31 14:19:07 修改

阅读量374

点赞数

分类专栏：大数据面试文章标签：大数据面试数据仓库 spark java

于 2021-03-10 13:17:46 首次发布

本文链接：https://blog.csdn.net/DTFT_/article/details/114632857

版权

大数据同时被 2 个专栏收录

9 篇文章 2 订阅

订阅专栏

面试

1 篇文章 0 订阅

订阅专栏

第一部分

自我介绍过于冗余
项目介绍？还可以
分层以及为啥分层不完善
开发人员分工一般
日数类型及日数据量，业务库最大的表的数据量一般
拉链表逻辑及回滚回滚不会
重要指标及统计方法不行。
建模及原因 (星型模型，雪花模型)
开发规范？没答到点上
Hive的理解及调优？随机数获取(rand()) 小文件处理 group by
Mapjoin 不行
指标一致性？不行
Spark函数了解
Mr shuffle 可以
Hbase二级索引
Flink熟吗
Kylin熟吗
数据质量一般
元数据管理可以
有什么问题想问我？项目技术架构数据质量元数据管理

第二部分

自我介绍可以
项目可以
服务器配置多少台不行
Flume数据丢失怎么解决不行
Sqoop常见问题，分隔符问题/空值处理？
外部表内部表一般
On和where的区别不行
为什么需要分区，以及分区分桶的区别，怎么抽样一般
4个by的区别可以
大表小表join 原理 mapjoin 可以
Yarn资源调度流程不行
轻度汇总层不行
主题划分有哪些主题
新增用户指标统计口径不行
有哪些维表一般
遇到什么困难，怎么解决
数据倾斜处理可以
公共层和数据集市层不行
Kimball架构和inmon架构不行

第三部分

自我介绍
为啥转行
介绍一下最熟悉或者成长最快的项目
建模原则
为什么分层
在这个项目中，主要负责啥
大概多少人参与
0-1建设数仓
Inmon架构和kimball架构
做这个项目遇到最大的困难
数据倾斜排查与处理
热点key的产生
负责的业务
订单业务的表数据量最大的表明细表数据总量和增量
业务库数据同步(增量同步逻辑)
有没用到拉链表处理
缓慢变化维处理方式
保证指标一致性
数据质量如何保证？
元数据管理有了解吗
有什么想问我的吗

第四部分

自我介绍
为什么从java转到大数据
项目介绍
团队人数及任务划分
5个主题的参与
哪个主题的模型建设比较复杂
用户主题业务库表多少张，最大的数据量是哪张表
数据漂移解决方案
每层的作用及分层的好处(模型层)
增量抽取场景及逻辑
缓慢变化维处理方案
拉链表的逻辑及使用
数据清洗哪些
星型模型雪花模型星座模型区别
建模原则
开发规范
比较核心的指标及统计口径(七天内连续三天活跃用户数)
如何保证指标一致性
数据质量的保障
Kylin的缺点和优点
Cube cuboid segment关系
Kylin优化
HDFS HA机制
Shuffle流程
UDF实现过程
Hive调优
大表join小表优化(Mapjoin原理)
Hive复杂数据类型
小文件处理
Hive常见函数
还有什么想问我的吗

第五部分

自我介绍
为什么从数据分析师转到大数据开发，工作内容区别
最熟悉，成长最快的项目
团队人数，如何分工，有什么主题或者业务呢
你负责哪个业务？
建模过程。(不行)
你们数仓建设有分层吗，是怎么分的，为什么要这样分，为什么要分层 (维度退化)
模型层是在DWS层？轻度汇总层？
数据漂移，怎么发现
维表的生成数据从哪里来() 有什么维表() 维度变化(缓慢变化维处理) 如何实现？
开发规范
星型模型雪花模型和星座模型
指标(用户留存)统计口径
数据应用存储，为什么sqoop
HDFS HA机制一台namenode宕机了会发生什么
Mr的shuffle流程为什么求平均值不能combiner
快排算法？
Hive常用函数
Rownumber rank dense_rank
Hive复杂数据类型 map struct array
Hive执行计划有看过吗，你一般关注哪几个点?
你有什么想问我的

第六部分

自我介绍
数仓0-1建设
缓慢变化维处理方式
一致性维度
如何保证指标一致性
如何保证数据质量
元数据管理怎么做的
数据血缘怎么做的
指标管理体系怎么做的
开发规范有哪些
数据如何为业务赋能
flink checkpoint
flink 精准一次性语义实现
flink watermark
flink调优
flink多流join
flink cdc实现
clickhouse原理
kylin原理及调优
实时数仓建设技术选型
你有什么想问我的吗

第七部分

bilibili 实时岗一面

自我介绍
介绍有关flink的工作
说下flink checkpoint的流程
flink怎么保证ck数据的一致性
flink 两阶段提交？
watermark 与 windows的关系？怎么确定一个窗口可以触发计算
说说状态state
keyGroup是用来做什么的？去掉可不可以？
flink背压？spark streaming/storm的背压？
说说为什么你们选flink而不选sparkStreaming ？
介绍下canal
讲讲canal 中的Ringbuffer ，其与阻塞队列之间的不同？可不可以用阻塞队列替换？
canal会不会丢数据？元数据怎么保存？
在canal上的二次开发？
Java基础锁线程池垃圾回收
线上有没有遇到cpu100% 或者 oom的情况？怎么解决的？

孙晨c

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
6
评论
大数据模拟面试题

第一部分自我介绍过于冗余项目介绍？还可以分层以及为啥分层不完善开发人员分工一般日数类型及日数据量，业务库最大的表的数据量一般拉链表逻辑及回滚回滚不会重要指标及统计方法不行。建模及原因 (星型模型，雪花模型)开发规范？没答到点上Hive的理解及调优？随机数获取(rand()) 小文件处理 group byMapjoin 不行指标一致性？不行Spark函数了解Mr shuffle 可以Hbase二级索引Flink熟吗Kyli
复制链接

扫一扫