Spark 特点

最新推荐文章于 2024-03-08 16:44:50 发布

谦卑t

最新推荐文章于 2024-03-08 16:44:50 发布

阅读量5.4k

点赞数

分类专栏： Spark 文章标签： Spark 特点

本文链接：https://blog.csdn.net/qq_42246689/article/details/85723746

版权

Apache Spark 因其快速高效、简洁易用、全栈式数据处理和广泛兼容的特点备受青睐。Spark 通过内存计算显著提升性能，支持多种编程语言，提供批处理、SQL查询、流处理、机器学习和图计算等全面功能，并能在多种集群管理器上运行，如 Mesos、Standalone、YARN 和 Kubernetes，兼容多种数据源。

摘要由CSDN通过智能技术生成

3、Spark 特点

3.1、Speed：快速高效

随着实时大数据应用越来越多，Hadoop 作为离线的高吞吐、低响应框架已不能满足这类需求。Hadoop MapReduce 的 Job 将中间输出和结果存储在 HDFS 中，读写 HDFS 造成磁盘 IO 成为瓶颈。Spark 允许将中间输出和结果存储在内存中，节省了大量的磁盘 IO。Apache Spark 使用最先进的 DAG 调度程序，查询优化程序和物理执行引擎，实现批量和流式数据的高性能。同时 Spark 自身的 DAG 执行引擎也支持数据在内存中的计算。Spark 官网声称性能比 Hadoop 快 100 倍。即便是内存不足需要磁盘 IO，其速度也是 Hadoop 的 10 倍以上。