大数据开发实习面试复盘

自我介绍,

介绍自己写的两个项目(离线和实时)

数仓分层是怎么分的?

数仓建模使用的是什么?我回答的ER 实体模型。应该是维度模型

问基础知识:

hadoop的读写流程介绍一下? 第一遍·完成

两个项目离线,实时用的编程语言用的什么?我回的java

java介绍一下你平时常用的集合有哪些?在项目中如何使用的?

有没有用到hive的窗口函数,介绍一下,

数仓·中有没有遇到一些数据清洗,有没有一些比较巧妙的方法,怎么进行数据清洗的,

当大表join小表时,会出现什么情况   第一遍完成

kafka的分区策略有了解吗?   第一遍完成

kafka的消息积压问题有没有遇到过?怎么解决的,数据写得很多,写到kafka导致数据积压, 第一遍完成

kafka数据是有序的吗?  第一遍完成

实时数仓用的flinkSQL还是dataStream,  flinkSql    (用户行为日志  json格式数据  StreamAPI)

                                                                                (业务数据         明细数据         flinkSQL)

ads层  或是最上层的数据 都是写到哪里面的(dim层写到Hbase里面 ,dwd层写到kafka  )

Hbase的rowkey是怎么设计的?rowKey的设计原则, 有没有经验积累?第一遍完成

数据同步用的maxwell,用它的原因是什么   第一遍完成

flinkSql用的流式数据,数据万一坏了,有什么恢复机制? 第一遍完成

实时数仓用到过spark没有? 没用到

离线数仓建模用的什么建模?数仓怎么建模讲一下 

离线数仓的很多小文件问题是怎么解决的? 第一遍完成

zookeeper用过吗?zookeepr命令知道有什么常用的?  第一遍完成

实时数仓的Flink...没听过一个东西   最后听那个是什么

你觉得写离线数仓实时数仓过程中的难点是什么?

两个项目的环境都是自己搭建的吗?(最自信的)

结束感谢

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值