大数据spark初识

最新推荐文章于 2024-11-17 23:36:10 发布

沙漏遗失了年华

最新推荐文章于 2024-11-17 23:36:10 发布

阅读量184

点赞数

分类专栏：大数据文章标签：大数据 spark apache spark

本文链接：https://blog.csdn.net/qq_25002995/article/details/96371948

版权

Spark是一个快速、通用的集群计算系统，提供批处理、迭代算法、交互式查询和流处理等多种计算模式。相较于Hadoop，Spark通过内存计算大幅提升处理速度，其核心组件包括Spark Core、Spark SQL、Spark Streaming、MLlib和GraphX。Spark采用Master-Slave架构，通过DAG Scheduler和TaskScheduler进行任务调度，RDD是其基础计算单元，具备弹性和容错性。

摘要由CSDN通过智能技术生成

1.什么是spark？

     Spark 是一个用来实现快速而通用的集群计算的平台。
        在速度方面，Spark 扩展了广泛使用的 MapReduce 计算模型，而且高效地支持更多计算模式，包括交互式查询和流处理。在处理大规模数据集时，速度是非常重要的。速度快就意味着我们可以进行交互式的数据操作，否则我们每次操作就需要等待数分钟甚至数小时。Spark 的一个主要特点就是能够在内存中进行计算，因而更快。不过即使是必须在磁盘上进行的复杂计算，Spark 依然比 MapReduce 更加高效。
        总的来说，Spark 适用于各种各样原先需要多种不同的分布式平台的场景，包括批处理、迭代算法、交互式查询、流处理。通过在一个统一的框架下支持这些不同的计算，Spark使我们可以简单而低耗地把各种处理流程整合在一起。而这样的组合，在实际的数据分析过程中是很有意义的。不仅如此，Spark 的这种特性还大大减轻了原先需要对各种平台分别管理的负担。
        Spark 所提供的接口非常丰富。除了提供基于 Python、Java、Scala 和 SQL 的简单易用的API 以及内建的丰富的程序库以外，Spark 还能和其他大数据工具密切配合使用。例如，Spark 可以运行在 Hadoop 集群上，访问包括 Cassandra 在内的任意 Hadoop 数据源。