认识spark

最新推荐文章于 2024-07-02 09:36:29 发布

数据-简单

最新推荐文章于 2024-07-02 09:36:29 发布

阅读量674

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/qq_26583415/article/details/54646680

版权

本文将带你深入了解Spark的基本概念，包括其核心设计理念和独特的架构设计，帮助你全面掌握Spark的基础知识。

摘要由CSDN通过智能技术生成

认识spark

 
 Spark 
 是一个用来实现快速而通用的集群计算的平台。 

 
  在速度方面，Spark扩展了广泛使用的MapReduce计算模型，而且高效地支持更多计算模式，包括交互式查询和流处理。在处理大规模数据集时，速度是非常重要的。速度快就意味着我们可以进行交互式的数据操作，否则我们每次操作就需要等待数分钟甚至数小时。Spark的一个主要特点就是能够在内存中进行计算，因而更快。不过即使是必须在磁盘上进行的复杂计算，Spark依然比MapReduce更加高效。

 
  1、Spark Core 
 
  Spark Core 实现了Spark 的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core 中还包含了对弹性分布式数据集（resilient distributed dataset，简称RDD）的API 定义。RDD 表示分布在多个计算节点上可以并行操作的元素集合，是Spark 主要的编程抽象。Spark Core 提供了创建和操作这些集合的多个API。 
 
  2、Spark SQL 
 
  Spark SQL 是Spark 用来操作结构化数据的程序包。通过Spark SQL，我们可以使用SQL或者Apache Hive 版本的SQL 方言（HQL）来查询数据。Spark SQL 支持多种数据源，比如Hive 表、Parquet 以及JSON 等。除了为Spark 提供了一个SQL 接口，Spark SQL 还支持开发者将SQL 和传统的RDD 编程的数据操作方式相结合，不论是使用Python、Java 还是Scala，开发者都可以在单个的应用中同时使用SQL 和复杂的数据分析。 
 
  3、Spark Streaming 
 
  Spark Streaming 是Spark 提供的对实时数据进行流式计算的组件。比如生产环境中的网页服务器日志，或是网络服务中用户提交的状态更新组成的消息队列，都是数据流。SparkStreaming 提供了用来操作数据流的API，并且与Spark Core 中的RDD API 高度对应。 
 
  4、MLlib