大数据模拟面试题

第一部分

  1. 自我介绍 过于冗余
  2. 项目介绍? 还可以
  3. 分层以及为啥分层 不完善
  4. 开发人员分工 一般
  5. 日数类型及日数据量,业务库最大的表的数据量 一般
  6. 拉链表逻辑及回滚 回滚不会
  7. 重要指标及统计方法 不行。
  8. 建模及原因 (星型模型,雪花模型)
  9. 开发规范? 没答到点上
  10. Hive的理解及调优? 随机数获取(rand()) 小文件处理 group by
  11. Mapjoin 不行
  12. 指标一致性? 不行
  13. Spark函数 了解
  14. Mr shuffle 可以
  15. Hbase二级索引
  16. Flink熟吗
  17. Kylin熟吗
  18. 数据质量 一般
  19. 元数据管理 可以
  20. 有什么问题想问我? 项目技术架构 数据质量 元数据管理

第二部分

  1. 自我介绍 可以
  2. 项目 可以
  3. 服务器配置 多少台 不行
  4. Flume数据丢失 怎么解决 不行
  5. Sqoop常见问题,分隔符问题/空值处理 ?
  6. 外部表 内部表 一般
  7. On和where的区别 不行
  8. 为什么需要分区,以及分区分桶的区别,怎么抽样 一般
  9. 4个by的区别 可以
  10. 大表小表join 原理 mapjoin 可以
  11. Yarn资源调度流程 不行
  12. 轻度汇总层 不行
  13. 主题划分 有哪些主题
  14. 新增用户指标统计口径 不行
  15. 有哪些维表 一般
  16. 遇到什么困难,怎么解决
  17. 数据倾斜处理 可以
  18. 公共层和数据集市层 不行
  19. Kimball架构和inmon架构 不行

第三部分

  1. 自我介绍
  2. 为啥转行
  3. 介绍一下最熟悉或者成长最快的项目
  4. 建模原则
  5. 为什么分层
  6. 在这个项目中,主要负责啥
  7. 大概多少人参与
  8. 0-1建设数仓
  9. Inmon架构和kimball架构
  10. 做这个项目遇到最大的困难
  11. 数据倾斜排查与处理
  12. 热点key的产生
  13. 负责的业务
  14. 订单业务的表 数据量最大的表 明细表数据总量和增量
  15. 业务库数据同步(增量同步逻辑)
  16. 有没用到拉链表处理
  17. 缓慢变化维处理方式
  18. 保证指标一致性
  19. 数据质量如何保证?
  20. 元数据管理有了解吗
  21. 有什么想问我的吗

第四部分

  1. 自我介绍
  2. 为什么从java转到大数据
  3. 项目介绍
  4. 团队人数及任务划分
  5. 5个主题的参与
  6. 哪个主题的模型建设比较复杂
  7. 用户主题业务库表多少张,最大的数据量是哪张表
  8. 数据漂移解决方案
  9. 每层的作用及分层的好处(模型层)
  10. 增量抽取场景及逻辑
  11. 缓慢变化维处理方案
  12. 拉链表的逻辑及使用
  13. 数据清洗哪些
  14. 星型模型 雪花模型 星座模型区别
  15. 建模原则
  16. 开发规范
  17. 比较核心的指标及统计口径(七天内连续三天活跃用户数)
  18. 如何保证指标一致性
  19. 数据质量的保障
  20. Kylin的缺点和优点
  21. Cube cuboid segment关系
  22. Kylin优化
  23. HDFS HA机制
  24. Shuffle流程
  25. UDF实现过程
  26. Hive调优
  27. 大表join小表优化(Mapjoin原理)
  28. Hive复杂数据类型
  29. 小文件处理
  30. Hive常见函数
  31. 还有什么想问我的吗

第五部分

  1. 自我介绍
  2. 为什么从数据分析师转到大数据开发,工作内容区别
  3. 最熟悉,成长最快的项目
  4. 团队人数,如何分工,有什么主题或者业务呢
  5. 你负责哪个业务?
  6. 建模过程。(不行)
  7. 你们数仓建设有分层吗,是怎么分的,为什么要这样分,为什么要分层 (维度退化)
  8. 模型层是在DWS层?轻度汇总层?
  9. 数据漂移,怎么发现
  10. 维表的生成 数据从哪里来() 有什么维表() 维度变化(缓慢变化维处理) 如何实现?
  11. 开发规范
  12. 星型模型雪花模型和星座模型
  13. 指标(用户留存)统计口径
  14. 数据应用存储,为什么sqoop
  15. HDFS HA机制 一台namenode宕机了 会发生什么
  16. Mr的shuffle流程为什么求平均值不能combiner
  17. 快排算法?
  18. Hive常用函数
  19. Rownumber rank dense_rank
  20. Hive复杂数据类型 map struct array
  21. Hive执行计划有看过吗,你一般关注哪几个点?
  22. 你有什么想问我的

第六部分

自我介绍
数仓0-1建设
缓慢变化维处理方式
一致性维度
如何保证指标一致性
如何保证数据质量
元数据管理怎么做的
数据血缘怎么做的
指标管理体系怎么做的
开发规范有哪些
数据如何为业务赋能
flink checkpoint
flink 精准一次性语义实现
flink watermark
flink调优
flink多流join
flink cdc实现
clickhouse原理
kylin原理及调优
实时数仓建设技术选型
你有什么想问我的吗

第七部分

bilibili 实时岗 一面

  1. 自我介绍
  2. 介绍有关flink的工作
  3. 说下flink checkpoint的流程
  4. flink怎么保证ck数据的一致性
  5. flink 两阶段提交?
  6. watermark 与 windows的关系?怎么确定一个窗口可以触发计算
  7. 说说状态state
  8. keyGroup是用来做什么的?去掉可不可以?
  9. flink背压?spark streaming/storm的背压?
  10. 说说 为什么你们选flink而不选sparkStreaming ?
  11. 介绍下canal
  12. 讲讲canal 中的Ringbuffer ,其与阻塞队列之间的不同?可不可以用阻塞队列替换?
  13. canal会不会丢数据?元数据怎么保存?
  14. 在canal上的二次开发?
  15. Java基础 锁 线程池 垃圾回收
  16. 线上有没有遇到cpu100% 或者 oom的情况?怎么解决的?
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 6
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

孙晨c

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值