自我介绍,
介绍自己写的两个项目(离线和实时)
数仓分层是怎么分的?
数仓建模使用的是什么?我回答的ER 实体模型。应该是维度模型
问基础知识:
hadoop的读写流程介绍一下? 第一遍·完成
两个项目离线,实时用的编程语言用的什么?我回的java
java介绍一下你平时常用的集合有哪些?在项目中如何使用的?
有没有用到hive的窗口函数,介绍一下,
数仓·中有没有遇到一些数据清洗,有没有一些比较巧妙的方法,怎么进行数据清洗的,
当大表join小表时,会出现什么情况 第一遍完成
kafka的分区策略有了解吗? 第一遍完成
kafka的消息积压问题有没有遇到过?怎么解决的,数据写得很多,写到kafka导致数据积压, 第一遍完成
kafka数据是有序的吗? 第一遍完成
实时数仓用的flinkSQL还是dataStream, flinkSql (用户行为日志 json格式数据 StreamAPI)
(业务数据 明细数据 flinkSQL)
ads层 或是最上层的数据 都是写到哪里面的(dim层写到Hbase里面 ,dwd层写到kafka )
Hbase的rowkey是怎么设计的?rowKey的设计原则, 有没有经验积累?第一遍完成
数据同步用的maxwell,用它的原因是什么 第一遍完成
flinkSql用的流式数据,数据万一坏了,有什么恢复机制? 第一遍完成
实时数仓用到过spark没有? 没用到
离线数仓建模用的什么建模?数仓怎么建模讲一下
离线数仓的很多小文件问题是怎么解决的? 第一遍完成
zookeeper用过吗?zookeepr命令知道有什么常用的? 第一遍完成
实时数仓的Flink...没听过一个东西 最后听那个是什么
你觉得写离线数仓实时数仓过程中的难点是什么?
两个项目的环境都是自己搭建的吗?(最自信的)
结束感谢