大数据最新【秋招面试】货拉拉面试（1面过程）(1)，2024年最新2024BTAJ面试真题详解

2401_84181975

于 2024-05-12 00:23:01 发布

阅读量636

点赞数 17

分类专栏：程序员文章标签：大数据面试学习

本文链接：https://blog.csdn.net/2401_84181975/article/details/138734763

版权

程序员专栏收录该内容

153 篇文章 0 订阅

订阅专栏

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取

这次面试大约面了50min，
整个过程体验还是不错的，面试官迟到也做了解释，记错了时间。

下面👇是面试题：
由于我准备面试时大部分的项目准备是围绕数据仓库开发准备的，
而我面试的是货拉拉的大数据开发岗，
所以整个面试过程面试官也在反复和我确认到底是面试应用开发还是数仓开发。。。
在这里插入图片描述

1.自我介绍
2.简单介绍2个项目+项目选型+负责哪一部分
负责的部分是离线数仓部分
3.围绕项目问问题：
项目所使用的数据模型（问的是星型模型和雪花模型的区别，愣是半天没反应过来，害）

ClickHouse和Hbase有什么区别
Hive和Hbase有什么区别

•Hive是通过构建元数据，映射HDFS文件构建成表，本质还是HDFS，实现离线大数据仓库
•Hbase是通过构建上层分布式内存，底层HDFS，实现大数据实时存储的NoSQL数据库

Hive和Mysql有什么区别
（内心os：啊这，为啥老问我这么多区别，现在仔细想想我应该回答的更完整才符合面试官的需求。）
在这里插入图片描述
如何处理Hive的数据倾斜
如何解决数据倾斜一类的问题，可参见这篇：
Hive千亿级数据倾斜解决方案
描述一下Hive的MapReduce过程

mapreduce的三大阶段：

map阶段：并行处理的阶段 shuffle阶段：从离开Mapper开启到进入Reduce之前的阶段 reduce阶段：汇总整理的阶段

mapreduce的八大步骤

设置MapReduce的输入InputFormat类型，默认为TextInputFormat
自定义map函数，得到TextInputFormat的k1，v1；经过处理后传出k2，v2
分区–默认根据k2决定map中的数据该发送到哪个reduce中排序–默认根据k2进行字典排序
规约–默认没有此阶段，是优化手段，可以提前合并分组–相同k2的value会放到同一个集合中
自定义reduce函数，讲分组得到的k2，v2转成k3，v3输出
设置输出的OutputFormat，默认采用TextOutputFormat，将结果输出到一个纯文本文件中

Hbase的设计原则
（没答完整，刚刚自己才写的面试题，小丑竟是我自己～）