史上最简单的spark系列教程

最新推荐文章于 2024-07-26 16:20:20 发布

cjmn1168

最新推荐文章于 2024-07-26 16:20:20 发布

阅读量1k

点赞数 1

文章标签： spark hadoop 大数据分布式

本文链接：https://blog.csdn.net/cjmn1168/article/details/108515677

版权

本文提供了一篇关于Spark的简单教程，介绍了Spark作为一个快速且通用的集群计算框架，其核心功能包括Spark Core、Spark SQL、Spark Streaming、MLlib和GraphX。文章涵盖Spark的优点、如何下载安装及运行示例，特别强调了RDD作为Spark分布式数据集的概念，并提供了使用Spark Shell操作RDD的实例。

摘要由CSDN通过智能技术生成

什么是spark?

网上有关spark的介绍一搜一大堆,这里就简单的说下它的优点:

Apache Spark是一种包含流处理能力的下一代批处理框架。与Hadoop的MapReduce引擎基于各种相同原则开发而来的Spark主要侧重于通过完善的内存计算和处理优化机制加快批处理工作负载的运行速度

Spark可作为独立集群部署（需要相应存储层的配合），或可与Hadoop集成并取代MapReduce引擎

与MapReduce不同，Spark的数据处理工作全部在内存中进行，只在一开始将数据读入内存，以及将最终结果持久存储时需要与存储层交互。所有中间态的处理结果均存储在内存中

除了引擎自身的能力外，围绕Spark还建立了包含各种库的生态系统，可为机器学习、交互式查询等任务提供更好的支持。相比MapReduce，Spark任务易于编写

Spark的另一个重要优势在于多样性。该产品可作为独立集群部署，或与现有Hadoop集群集成。该产品可运行批处理和流处理，运行一个集群即可处理不同类型的任务

初级阶段:

-----------------------------------------------------------------------------------------------------
1. 什么是spark: spark是一个实现快速并且通用的集群计算框架
2. 核心功能组件:
  1. spark core: 实现spark的基本功能
    1. 任务调度,内存管理,错误恢复,与存储系统交互等模块
    2. RDD:[弹性分布式数据集]API定义
  2. spark sql: spa

最低0.47元/天解锁文章

cjmn1168

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
史上最简单的spark系列教程

什么是spark?网上有关spark的介绍一搜一大堆,这里就简单的说下它的优点:Apache Spark是一种包含流处理能力的下一代批处理框架。与Hadoop的MapReduce引擎基于各种相同原则开发而来的Spark主要侧重于通过完善的内存计算和处理优化机制加快批处理工作负载的运行速度 Spark可作为独立集群部署（需要相应存储层的配合），或可与Hadoop集成并取代MapReduce引擎与MapReduce不同，Spark的数据处理工作全部在内存中进行，只在一开始将数据读入内存，以及将最.
复制链接

扫一扫