1个月面试近11家公司，最终拿下阿里offer！（超强福利不容错过）

最新推荐文章于 2022-04-19 14:11:09 发布

singwhatiwanna

最新推荐文章于 2022-04-19 14:11:09 发布

阅读量1k

点赞数

原文链接：http://api.naixuejiaoyu.com/scan?channelcode=wx\x26amp;key=bigdata\x26amp;putcode=2-ygs

版权

前言

突如其来的疫情，让面试跳槽升级为炼狱难度，海投了一波简历，陆陆续续面了华为OD、浙江大华、阿里云、焦点科技、中软国际......大大小小十个公司出头，结果一路被吊打。从一开始的焦虑演变成了对自己技术能力深刻的怀疑。

好在濒临绝望的时候，机缘巧合遇到了一位58系大佬拯救我于水火之中，最终有幸成功上岸。他是奈学教育的李希沅老师，除了奈学合伙人的头衔，也是前58的大数据资深架构师，前东方国信大数据架构师，Hadoop平台负责人。所谓听君一席话，胜读十年书。有幸参加了一次他推荐的一个大数据Kafka训练营，瞬间醍醐灌顶，面试屡战屡捷。至今记得他说过一句话，“积累是一个层面，更重要的是在项目实操案例中如何实现由点画线，由线构面。“

像我一样，我相信大多数大数据技术人对知识的应用还留在零散点的层面，由点画线，由线构面还停留在一知半解的阶段。奈学推出的训练营和相应的开发、架构师课程恰好是一个很好的提升武器，抱着半信半疑的心态，报名了李希沅老师力推的一个Kafka训练营试水，拿到了一份干货满满的课程大纲和技术资料，有了各位大佬视频讲解加持，瞬间觉得像我这样的职场小白，升职加薪完全不在话下。

上次训练营结束，他们的课程顾问送了一套免费的视频资料，详细讲解了【Kafka源码】、【Hadoop】、【大数据中台】、【企业级大数据平台搭建】等各类干货。讲师们甚至把集群需要用到的各种程序进行了打包，根据视频教学内容可以让我们轻松搭建完全分布式环境，像在企业生产环境一样进行实践。

这波福利也留给急需进阶的你

添加课程顾问自动免费领取

就在此时，3天跟5000人一起撸码的免费训练营正在火热进行时！

平心而论，市面上鱼龙混杂的大数据职业培训教育，能做到保持初心，不割韭菜的机构几乎没有能叫板奈学的实力。作为一个成功上岸的案例，还是凭着良心给大家推荐一次。

错过第一天直播的伙伴稍安勿躁，添加上图中二维码，免费领取第一天高清录播课！当然，除了大佬的直播讲解技术知识和面试经分享之外，为了避免各位踩坑，特意总结了一份面试题集，希望能对大家有所帮助！

Hadoop

1. HDFS 的架构设计是怎样的？

2. HDFS 的读写流程是怎样的？

3. MapReduce 计算引擎中的 shuffle 是怎样的？

4. 简要描述 Hadoop 跟 Spark 的区别。

Hive

1. Hive 和关系型数据库比较

2. Hive 元数据管理

3. 有没有遇到数据倾斜的问题（场景、解决方式）

4. Hive 两种类型的权限控制方式

5. Hive UDF， UDTF， UDAF，窗口函数（row_number, rank, cube, rollup, lag, lead)

6. Hive 的调优

7. Hive 分区和分桶的区别，内部表和外部表的区别，怎么进行动态分区？

8. Hive 几种存储方式的区别？

Kafka

1.Kafka 的架构

2.关于 Kafka 为什么这么快

3.Kafka 和其他消息队列的区别

4.Kafka 如何保证消息队列不丢失？

5.Kafka 消息数据积压，Kafka 消费能力不足怎么处理

6.Kafka producer consumer怎么实现at most once和exactly once（幂等计算和事务）

7.Kafka 高可用怎么实现的

8.Kafka 数据重复

HBase

1. RowKey 怎么设计的？

2. 描述 HBase 中 scan 和 get 的功能以及实现的异同

3. 在HBase 中，是允许设置多个列簇的，但是为什么在实际生产中会设置很少的列簇呢？

4. HBase 的存储格式

5. HBase 的读写流程

6. HBase 的优化

7. 关于HBase 数据热点的问题

Spark

1. Spark 有几种部署方式？请分别简要论述

2. Spark on yarn cluster 作业提交的流程

3. Spark 提交作业参数

4. 如何理解 Spark 中的血统概念（RDD）

5. Spark 调优

6. Spark 划分任务

7. Spark 宽窄依赖，reducebykey 和 groupbykey 的性能谁高？

8. 分别简述 Spark 中的缓存机制（cache 和 persist）与checkpoint 机制，并指出两者的区别与联系

9. Spark 的缓存级别

10. 某个 task 莫名其妙内存溢出的情况

11. 简述 Spark 中共享变量（广播变量和累加器）的基本原理与用途

12. 简述 SparkSQL 中 RDD、DataFrame、DataSet 三者的区别与联系?

13. Spark Streaming 控制每秒消费数据的速度

14. SparkStreaming 有哪几种方式消费 Kafka 中的数据，它们之间的区别是什么？

数仓

1. 数据仓库的模型设计

2. 数仓质量怎么监控

3. 业务建模、数据分析方法

4. 有没有遇到数据倾斜的问题（场景、解决方式）

5. 数仓规范设计哪些方面(字段、维度，存储压缩、数据保留机制)

6. 数仓有用到增量表、还是全量表？拉链表做过吗？

关于这些面试题的答案，我相信大家一定翘首以盼恨不得躺着等大佬给你一份现成的满分答卷对不对？别急，大厂真人面试经，大数据答疑解难，打怪升级技巧，你要的答案统统都有，加下面的微信就完事儿了。

不难看出，各个大厂将大数据分门别类知识框架的考察放在了首位。凭借平时工作对海量数据处理的经验，觉得这种面试题完全就是小case，不假思索就快速给出了答案，果不其然，处处踩雷。印象最深的是Hadoop的题，答完之后面试官面露难色，摇了摇头便没有下文。

我当时的错误示范

1. HDFS 是一个主从架构。从节点负责分摊集群的工作，主节点负责进行从节点的管理。

2. HDFS 中默认文件中的而每个数据块写入三个副本，写入过程是客户端把第一个副本写到第一个节点，再由第一个节点写到第二个节点，再由第二个节点写到第三个节点。

3. MapReduce 的 shuffle 过程是：mapper 阶段的输出结果，根据分区规则把结果数据通过网络传输到第二个阶段，也就是 reducer 阶段。

4. Hadoop 提供分布式的存储和结算解决方案，但是 Spark 就提供了计算解决方案，所以说 Spark 替代 Hadoop 是不可能的。

后来屡屡受挫郁郁不得志的时候，忍不住给李老师发微信求助。他听完我的坎坷之旅之后回了’个哭笑不得‘的表情，他说其实我的回答不够细致，面试官问的某些问题并不是他真正的问题，而是这个问题所延伸出来的问题。比如问 HDFS的读写流程，其实更多的是想知道HDFS到底怎么确保一个文件，完好无损的写入 HDFS，还要保证高效率、以及容错相关的事儿；再比如MapReduce框架的核心部分，就是Mapper和Reducer之间的shuffle过程。Shuffle过程非常复杂，既然面试官问，肯定是想让我更清楚详尽的去描述这个过程，考察知识深度的掌握情况。

我相信升职也好，跳槽也罢，就像升级打怪一般，大佬们一定是久经沙场，踩过无数的坑，才会去其糟粕总结出一套又一套实战精华方法论。

后语

作为一个误打误撞进了大数据门儿的小白，一路修行，磕磕绊绊。这中间也曾经历过焦虑失眠，凌晨四点爬起来Coding。时间久了也会自我怀疑，怀疑自己这么努力到底值得吗？

但一方面对新技术的渴望，另一方面来自房贷的压力，像是时刻悬在我头上的达摩克里斯之剑，让我时刻保持清醒的头脑，不断学习。在马伯庸《长安十二时辰》里看到一句话，非常喜欢，和大家共勉：

“祷以恒切，盼以喜乐，苦以坚忍，必有所得”。

【更多测试真题扫码领取】

【阅读原文更多惊喜】

singwhatiwanna

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
1个月面试近11家公司，最终拿下阿里offer！（超强福利不容错过）

前言突如其来的疫情，让面试跳槽升级为炼狱难度，海投了一波简历，陆陆续续面了华为OD、浙江大华、阿里云、焦点科技、中软国际......大大小小十个公司出头，结果一路被吊打。从一开始的焦虑...
复制链接

扫一扫