1、自我介绍
2、项目介绍,项目中使用的技术、难点及如何解决,项目有哪些亮点、又有哪些收益(问的很细、很深)
答案:
(1)技术用到的是最新的技术,但是难点是团队是两个,沟通是一个很大的问题,只能反馈更高一级的领导协调相关资源。
(2)项目太多,人员众多,可以分组,设立各个组长进行管理,每个组出项目计划进行项目的实现。
3、关于如何用之前的经验来做这边的的产品,谈谈自己见解
4、以前的数仓有哪些可以优化和借鉴的地方
5. 标签系统整体设计思路,用户画像怎么做,模型怎么设计与落地
6、用户留存模型设计,有几种方案,各自的好处与不足是什么
7.如何衡量数仓的好坏,以及你对业务的思考
答案:
(1)模型的完整度
(2)模型的复用率
(3)模型的规范性
(4)核心模型与拓展模型分离
8、公共模型如何设计与优化
答案:
(1)获取更高的任务指标
(2)获得更快的运行速度
(3)用最简单的模型
(4)稳定可靠的性能
9、hadoop spark flink等大数据理解及实现原理及调优
10、用过哪些hive窗口函数,多维分析函数
11.HiveSQL从哪些方面优化
12.为什么多个count(distinct xxx)会非常慢
答案:既有全表扫描又有排序肯定会非常慢。
13.group by倾斜怎么优化
答案:可以采用Map端数据聚合的操作,有一个set hive.groupby.skewindata = true的参数设置
14.宽窄依赖的区别 哪些算子有shuffle
15.如何保障数据质量
答案:
(1)首先要重视数据质量问题
(2)制度层面在公司形成数据管理的制度和文化
(3)执行层面数据质量全面实时监测
(4)成立专门部门解决数据质量的问题
(5)通过校验规则进行数据质量的检查和改善
16.如何管理指标和保障一致性
17.实时技术架构,你的理解和存在的问题
18.做过哪些数据治理,在技术和流程上都做了哪些工作
19.表分区有哪几种?
答案:范围分区,hash分区