锁屏面试题百日百刷-Spark篇(九)

最新推荐文章于 2024-09-03 21:03:55 发布

zjlala96

最新推荐文章于 2024-09-03 21:03:55 发布

阅读量233

点赞数

分类专栏：面试题百日百刷大厂面试题 spark 文章标签： spark 大数据分布式

本文链接：https://blog.csdn.net/u012838765/article/details/129657001

版权

面试题百日百刷同时被 3 个专栏收录

84 篇文章 2 订阅

订阅专栏

大厂面试题

58 篇文章 0 订阅

订阅专栏

spark

18 篇文章 0 订阅

订阅专栏

本文介绍了Spark在机器学习和图计算的应用，比较了MLlib和ML包的区别，强调了Spark的高可用性，特别是Master使用Zookeeper进行HA时的元数据管理和切换过程，以及在切换过程中不影响已有作业的原因。

摘要由CSDN通过智能技术生成

锁屏面试题百日百刷，每个工作日坚持更新面试题。锁屏面试题app、小程序现已上线，官网地址：https://www.demosoftware.cn。已收录了每日更新的面试题的所有内容，还包含特色的解锁屏幕复习面试题、每日编程题目邮件推送等功能。让你在面试中先人一步!接下来的是今日的面试题：

1.Spark 机器学习和 Spark 图计算接触过没有，能举例说明你用它做过什么吗？

Spark 提供了很多机器学习库，我们只需要填入数据，设置参数就可以用了。使用起来非常方便。另外一方面，由于它把所有的东西都写到了内部，我们无法修改其实现过程。要想修改里面的某个环节，还的修改源码，重新编译。比如 kmeans 算法，如果没有特殊需求，很方便。但是spark内部使用的两个向量间的距离是欧式距离。如果你想改为余弦或者马氏距离，就的重新编译源码了。Spark 里面的机器学习库都是一些经典的算法，这些代码网上也好找。这些代码使用起来叫麻烦，但是很灵活。Spark 有一个很大的优势，那就是 RDD。模型的训练完全是并行的。

2.Spark 的 ML 和 MLLib 两个包区别和联系

技术角度上，面向的数据集类型不一样: ML 的 API 是面向 Dataset 的（Dataframe 是 Dataset 的子集，也就是 Dataset[Row]），mllib 是面对 RDD 的。Dataset 和 RDD 有啥不一样呢？Dataset 的底端是 RDD。Dataset对 RDD 进行了更深一层的优化，比如说有 sql 语言类似的黑魔法，Dataset 支持静态类型分析所以在 compile time 就能报错，各种 combinators（map，foreach 等）性能会更好，等等。

编程过程上，构建机器学习算法的过程不一样: ML 提倡使用 pipelines，把数据想成水，水从管道的一段流入，从另一端流出。ML 是1.4比 Mllib 更高抽象的库，它解决如果简洁的设计一个机器学习工作流的问题，而不是具体的某种机器学习算法。未来这两个库会并行发展。

3.Spark master使用zookeeper进行HA的，有哪些元数据保存在Zookeeper？

答：spark通过这个参数spark.deploy.zookeeper.dir指定master元数据在zookeeper中保存的位置，包括Worker，Driver和Application以及Executors。standby节点要从zk中，获得元数据信息，恢复集群运行状态，才能对外继续提供服务，作业提交资源申请等，在恢复前是不能接受请求的。另外，Master切换需要注意2点

1）在Master切换的过程中，所有的已经在运行的程序皆正常运行！因为Spark Application在运行前就已经通过Cluster Manager获得了计算资源，所以在运行时Job本身的调度和处理和Master是没有任何关系的！

2）在Master的切换过程中唯一的影响是不能提交新的Job：一方面不能够提交新的应用程序给集群，因为只有Active Master才能接受新的程序的提交请求；另外一方面，已经运行的程序中也不能够因为Action操作触发新的Job的提交请求；

4.Spark master HA 主从切换过程不会影响集群已有的作业运行，为什么？

因为程序在运行之前，已经申请过资源了，driver和Executors通讯，不需要和master进行通讯的。

zjlala96

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
锁屏面试题百日百刷-Spark篇(九)

Spark 机器学习和 Spark 图计算接触过没有，能举例说明你用它做过什么吗Spark 的 ML 和 MLLib 两个包区别和联系Spark master使用zookeeper进行HA的，有哪些元数据保存在Zookeeper
复制链接

扫一扫

专栏目录