Spark学习笔记一(简介)

最新推荐文章于 2024-05-11 18:10:28 发布

OnlyQi

最新推荐文章于 2024-05-11 18:10:28 发布

阅读量1.2k

点赞数 1

分类专栏： Spark 文章标签： spark

本文链接：https://blog.csdn.net/OnlyQi/article/details/50681226

版权

Spark 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

Spark是基于内存的分布式数据处理平台，它可以执行批处理任务 (similar to MapReduce) 或流式处理，交互式查询和机器学习。它也有一系列的高级功能，包括：支持SQL和结构化数据处理的Spark SQL；Mlib用于机器学习；用于图形处理的GraphX；Spark流式处理。

Spark本质上说也是一个基于MapReduce的DAG批处理平台。由于大部分机器学习是一个迭代的过程，因此Spark做了一些优化：

1，在Hadoop中，由于DAG执行时，MapReduce需要反复写入磁盘，因此是一个很大的性能瓶颈。Spark将MapReduce的中间结果cache在内存中，以提高性能。
2，迭代类机器学习过程中会产生大量工作数据(working set)，这些数据大量读写磁盘造成性能问题。Spark使用弹性分布式数据集(RDD)，可以有选择的被加载并常驻在内存中，有些类似于关系型数据库内存中的数据缓存。
3，提供多种类SQL语言的操作，如filter，count等。而不是hadoop仅提供的map，reduce操作。
4，同时提供scala，java，pythen的API以及scala，python交互式shell。
5，底层的资源管理层可用standalone，mesos和yarn(对应下面Spark 架构图中的Cluster Manager)。
6，Spark早期版本的底层存储可用HDFS或普通文件系统。现在还支持Amazon S3和Cassandra。在处理流式数据时，很适合用Cassandra作为存储。
7，Spark支持从几十种数据源中读取数据，例如各种流行的文件格式，Cassandra，MongoDB，Hive等等。

Spark 3 Cluster架构
原文，一定要看
Spark3 Cluster架构
Cluster Manager也称为资源管理层。由于一个Spark Cluster同时可以运行多个应用程序，因此资源管理层的作用是在多个应用程序中调度分配资源。另外当有机器加入或离开集群时，资源管理层需要能感知这些变化，并且协调其他机器继续完成计算任务。

这里需要注意的是standalone模式不是说只能运行在单机上。standalone模式和Mesos/YERN的区别在于：standalone不使用Mesos/YERN作为资源管理层，而是自己实现了集群资源管理和调度的任务。因此在standalone模式下，你需要手工在集群中launch a master和多个workers来执行计算任务，你也可以使用Spark提供的launch scripts来创建master和workers。总的来说standalone简单快捷，适合在小规模集群上处理少量简单的计算任务。如果只是需要在单机上做些简单测试，则使用Spark提供的local mode就可以了。

SparkContent/SparkSession是应用程序连接到Spark Cluster的通道，我们将在《Spark学习笔记二》中详细讨论。SparkContent首先需要连接到Cluster Manager，等待其分配可用的集群资源，一旦可用资源确定后，SparkContent就直接连接到对应的机器上，请求Executor(A process launched for an application on a worker node, that runs tasks and keeps data in memory or disk storage across them.)并执行计算任务(A unit of work that will be sent to one executor)。
每个应用程序都有自己独立的SparkContent，而每个SparkContent能够请求的Executor是互相独立的，因此应用程序是相互隔离的。

OnlyQi

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark学习笔记一(简介)

安装并使用pyspark进入python shell后，就可以开始使用spark 了。 lines = sc.textFile(“README.md”) # Create an RDD called lines pythonLines = lines.filter(lambda line: “Python” in line) “README.md”是安装spark后，在安装目录中的一个文件
复制链接

扫一扫