Spark面试题精选（附答案），看完全都会了

最新推荐文章于 2024-06-21 10:30:00 发布

2401_84166896

最新推荐文章于 2024-06-21 10:30:00 发布

阅读量662

点赞数 17

分类专栏： 2024年程序员学习文章标签： spark 大数据分布式

本文链接：https://blog.csdn.net/2401_84166896/article/details/137489838

版权

Apache Spark是一款高性能的大数据处理框架，提供易用性、通用性和兼容性。Spark支持Java、Python、Scala API，适用于批处理、交互式查询、实时流处理、机器学习和图计算。Spark组件包括SparkCore、SparkSQL、SparkStreaming、MLlib和GraphX。RDD作为其核心数据抽象，具备数据流模型特性。Spark广泛应用在淘宝等公司的机器学习和高计算复杂度场景，通过RDD的Transformation和Action操作实现并行计算。

摘要由CSDN通过智能技术生成

Apache Spark使用最先进的DAG调度程序，查询优化程序和物理执行引擎，实现批量和流式数据的高性能。

2.易用性

Spark支持Java、Python和Scala的API，还支持超过80种高级算法，使用户可以快速构建不同的应用。而且Spark支持交互式的Python和Scala的shell，可以非常方便地在这些shell中使用Spark集群来验证解决问题的方法。

3.通用性

Spark提供了统一的解决方案。Spark可以用于批处理、交互式查询（Spark SQL）、实时流处理（Spark Streaming）、机器学习（Spark MLlib）和图计算（GraphX）。这些不同类型的处理都可以在同一个应用中无缝使用。Spark统一的解决方案非常具有吸引力，毕竟任何公司都想用统一的平台去处理遇到的问题，减少开发和维护的人力成本和部署平台的物力成本。