第一部分
- 自我介绍 过于冗余
- 项目介绍? 还可以
- 分层以及为啥分层 不完善
- 开发人员分工 一般
- 日数类型及日数据量,业务库最大的表的数据量 一般
- 拉链表逻辑及回滚 回滚不会
- 重要指标及统计方法 不行。
- 建模及原因 (星型模型,雪花模型)
- 开发规范? 没答到点上
- Hive的理解及调优? 随机数获取(rand()) 小文件处理 group by
- Mapjoin 不行
- 指标一致性? 不行
- Spark函数 了解
- Mr shuffle 可以
- Hbase二级索引
- Flink熟吗
- Kylin熟吗
- 数据质量 一般
- 元数据管理 可以
- 有什么问题想问我? 项目技术架构 数据质量 元数据管理
第二部分
- 自我介绍 可以
- 项目 可以
- 服务器配置 多少台 不行
- Flume数据丢失 怎么解决 不行
- Sqoop常见问题,分隔符问题/空值处理 ?
- 外部表 内部表 一般
- On和where的区别 不行
- 为什么需要分区,以及分区分桶的区别,怎么抽样 一般
- 4个by的区别 可以
- 大表小表join 原理 mapjoin 可以
- Yarn资源调度流程 不行
- 轻度汇总层 不行
- 主题划分 有哪些主题
- 新增用户指标统计口径 不行
- 有哪些维表 一般
- 遇到什么困难,怎么解决
- 数据倾斜处理 可以
- 公共层和数据集市层 不行
- Kimball架构和inmon架构 不行
第三部分
- 自我介绍
- 为啥转行
- 介绍一下最熟悉或者成长最快的项目
- 建模原则
- 为什么分层
- 在这个项目中,主要负责啥
- 大概多少人参与
- 0-1建设数仓
- Inmon架构和kimball架构
- 做这个项目遇到最大的困难
- 数据倾斜排查与处理
- 热点key的产生
- 负责的业务
- 订单业务的表 数据量最大的表 明细表数据总量和增量
- 业务库数据同步(增量同步逻辑)
- 有没用到拉链表处理
- 缓慢变化维处理方式
- 保证指标一致性
- 数据质量如何保证?
- 元数据管理有了解吗
- 有什么想问我的吗
第四部分
- 自我介绍
- 为什么从java转到大数据
- 项目介绍
- 团队人数及任务划分
- 5个主题的参与
- 哪个主题的模型建设比较复杂
- 用户主题业务库表多少张,最大的数据量是哪张表
- 数据漂移解决方案
- 每层的作用及分层的好处(模型层)
- 增量抽取场景及逻辑
- 缓慢变化维处理方案
- 拉链表的逻辑及使用
- 数据清洗哪些
- 星型模型 雪花模型 星座模型区别
- 建模原则
- 开发规范
- 比较核心的指标及统计口径(七天内连续三天活跃用户数)
- 如何保证指标一致性
- 数据质量的保障
- Kylin的缺点和优点
- Cube cuboid segment关系
- Kylin优化
- HDFS HA机制
- Shuffle流程
- UDF实现过程
- Hive调优
- 大表join小表优化(Mapjoin原理)
- Hive复杂数据类型
- 小文件处理
- Hive常见函数
- 还有什么想问我的吗
第五部分
- 自我介绍
- 为什么从数据分析师转到大数据开发,工作内容区别
- 最熟悉,成长最快的项目
- 团队人数,如何分工,有什么主题或者业务呢
- 你负责哪个业务?
- 建模过程。(不行)
- 你们数仓建设有分层吗,是怎么分的,为什么要这样分,为什么要分层 (维度退化)
- 模型层是在DWS层?轻度汇总层?
- 数据漂移,怎么发现
- 维表的生成 数据从哪里来() 有什么维表() 维度变化(缓慢变化维处理) 如何实现?
- 开发规范
- 星型模型雪花模型和星座模型
- 指标(用户留存)统计口径
- 数据应用存储,为什么sqoop
- HDFS HA机制 一台namenode宕机了 会发生什么
- Mr的shuffle流程为什么求平均值不能combiner
- 快排算法?
- Hive常用函数
- Rownumber rank dense_rank
- Hive复杂数据类型 map struct array
- Hive执行计划有看过吗,你一般关注哪几个点?
- 你有什么想问我的
第六部分
自我介绍
数仓0-1建设
缓慢变化维处理方式
一致性维度
如何保证指标一致性
如何保证数据质量
元数据管理怎么做的
数据血缘怎么做的
指标管理体系怎么做的
开发规范有哪些
数据如何为业务赋能
flink checkpoint
flink 精准一次性语义实现
flink watermark
flink调优
flink多流join
flink cdc实现
clickhouse原理
kylin原理及调优
实时数仓建设技术选型
你有什么想问我的吗
第七部分
bilibili 实时岗 一面
- 自我介绍
- 介绍有关flink的工作
- 说下flink checkpoint的流程
- flink怎么保证ck数据的一致性
- flink 两阶段提交?
- watermark 与 windows的关系?怎么确定一个窗口可以触发计算
- 说说状态state
- keyGroup是用来做什么的?去掉可不可以?
- flink背压?spark streaming/storm的背压?
- 说说 为什么你们选flink而不选sparkStreaming ?
- 介绍下canal
- 讲讲canal 中的Ringbuffer ,其与阻塞队列之间的不同?可不可以用阻塞队列替换?
- canal会不会丢数据?元数据怎么保存?
- 在canal上的二次开发?
- Java基础 锁 线程池 垃圾回收
- 线上有没有遇到cpu100% 或者 oom的情况?怎么解决的?