5月大数据/数仓面试计划以及复盘(一直补充)

最新推荐文章于 2024-05-04 05:53:53 发布

叶沧ii

最新推荐文章于 2024-05-04 05:53:53 发布

阅读量289

点赞数 1

分类专栏：数据仓库ETL Hive hadoop 文章标签： big data 面试 spark

本文链接：https://blog.csdn.net/weixin_41704277/article/details/124819362

版权

Hive 同时被 3 个专栏收录

5 篇文章 0 订阅

订阅专栏

数据仓库ETL

4 篇文章 0 订阅

订阅专栏

hadoop

3 篇文章 0 订阅

订阅专栏

面试计划：

复盘目标：

提示：这里可以添加学习目标

整理出面试缺点
梳理出缺失技能点，补充到技能树
整理出难点面试题目

面试内容：

### 字节

字节

数仓建模、数仓建模分层、数据质量
shuffle的理解
join操作 mr实现
spark 和flink区别，checkpoint的区别
spark的shuffle和mr 的shuffle 的区别
spark的stage 划分
spark的内存划分、oom原理
mr 和 spark的partitions分区器的底层
mapparition foreachpariton 底层以及对应节点数据分发
spark dag 和 taskmamager 先后关系
spark宽窄依赖
flink、spark checkpoint底层
增加一个字段数仓如何应对
sql题

7日留存率
连续登录天数
题目：

360

linux的场景：替换文件中的字符
｜a表： ip 属性｜ b表： ip频段 --》不等值连接。
inner join + where
spark 从hdfs 到 dataframe的过程

用友

集群搭建过程、技术选型，数仓建模、数仓分层、数据倾斜
spark shuffle 、mr shuffle 、spark reducebykey和groupbykey区别
flink和sparkstreaming区别
spark 任务提交机制
flink 的 watermark
HashMap底层、 HashMap和HashTable区别

– 没答上来：

spark和flink的checkpoint的区别
mysql 索引 b-tree和b+tree的区别

火花思维

hive的控制 mapjoin参数：
小文件的产生原因：可能是 redece 数量和动态分区
count(1) count(*)的区别
left semi join 和left join的区别
Presto 的json解析：select json_extract_scalar(json, ‘$.book’);
flinksql实时数据打宽方法

regular join
interval join
temporal join

order by 和 sort by 的用法
数据量大的时候考虑sort by | sort by的表现至少和orderby 一样好，所以优先选择sort by
hive和presto的解析json函数

Hive
select get_json_object(json, ‘$.book’);

Presto
select json_extract_scalar(json, ‘$.book’);

复盘时间：

提示：每天晚上 9.30 - 10.30

例如：

周一至周五晚上 8 点—晚上10点

学习产出：

提示：统计计划的总量

例如：

面试题问题答案
技能点详情
技能树补充

叶沧ii

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

5月大数据/数仓 面试计划以及复盘(一直补充)

面试计划：

复盘目标：

面试内容：

字节

360

用友

火花思维

复盘时间：

学习产出：

5月大数据/数仓面试计划以及复盘(一直补充)