大数据开发工程师面试题（20.04.14）

最新推荐文章于 2024-09-06 19:27:12 发布

纯净天空7

最新推荐文章于 2024-09-06 19:27:12 发布

阅读量1.4k

点赞数 2

分类专栏：面试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/asymuxue/article/details/105522330

版权

本文围绕大数据开发面试展开，深入讲解Spark中的RDD概念、转换与动作算子，以及数据倾斜问题。同时，讨论了线程池的工作原理和其在性能优化中的作用。

摘要由CSDN通过智能技术生成

概述

本篇博客将收集总结一些，本博主面试 大数据开发工程师 岗位遇到的面试题，虽然不一定高频，但是也算经验之谈，希望对各位有所帮助。

一

`1.什么是Spark RDD`

RDD：弹性分布式数据集 (Resilient Distributed DataSet)。

Spark 中最基本的数据抽象是 RDD。

创建RDD方法两种： 1.Driver并行化现有的Scala集合 2.引用外部存储系统

`2.Spark算子有哪些`

转换算子：map、filter、flatMap、mapPartition、mapPartitionwithIndex、coalesce、repartition、union、join、 cogroup、reduceByKey、aggregateByKey(部分即可)

动作算子：reduce、collect 、first、take 、aggregate、countByKey、foreach（部分即可）

所有的转换算子都是lazy执行的，只有在动作算子触发的时候任务才会被提交，这个时候转换算子才会真正去执行。转换算子的返回值是RDD、而动作算子的返回值可以是Unit、Array，一个任务中只能有一个动作算子，但是允许有多个转换算子。

`3.Spark 有几种部署方式`

①.Local: 运行在一台机器上，通常是练手或者测试环境。

②.Standalone:构建一个基于Mster+Slaves的资源调度集群，Spark任务提交给Master运行。是Spark自身的一个调度系统。

③.Yarn: Spark客户端直接连接Yarn，不需要额外构建Spark集群。有yarn-client和yarn-cluster两种模式，主要区别在于：Driver程序的运行节点。

④.Mesos：国内大环境比较少用。

`4.什么是kafka 架构`

kafka: 开源的流处理平台，该平台提供了消息的订阅与发布的消息队列，一般用作系统间解耦、异步通信、削峰填谷等作用。

`5.hive出现reduce端OOM，怎么检查问题`

这种情况一般是数据倾斜造成的,这时去查找聚合算子，修改该算子。

数据倾斜只会发生在shuffle过程中。这里给大家罗列一些常用的并且可能会触发shuffle操作的算子：distinct、groupByKey、reduceByKey、aggregateByKey、join、cogroup、repartition等。出现数据倾斜时，可能就是你的代码中使用了这些算子中的某一个所导致的。

`6.什么是Hbase`

HBase 是一个基于Hadoop的分布式,可扩展,巨大数据仓库.

`7.Hbase的Rowkey设计原则`

①.固定格式

②.不可使用随机的 UUID

③.将查询的数据作为rowKey的组成部分

`8.规避Hbase热点写问题`

<

最低0.47元/天解锁文章

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。