Spark的StandAlone模式环境搭建

最新推荐文章于 2022-06-07 08:19:54 发布

Jafeyyu

最新推荐文章于 2022-06-07 08:19:54 发布

阅读量715

点赞数 1

分类专栏： Spark

本文链接：https://blog.csdn.net/u011121146/article/details/55095022

版权

本文介绍了Spark的分布式计算框架特点，重点讲解如何在Spark的StandAlone模式下搭建环境，包括JDK、Scala的安装，SSH配置，以及Spark和Hadoop的配置步骤，适合学习阶段的实践操作。

摘要由CSDN通过智能技术生成

1.简介

Spark是一个类似于MapReduce的分布式计算框架，其核心是弹性分布式数据集，提供了比MapReduce更丰富的模型，可以在快速在内存中对数据集进行多次迭代，以支持复杂的数据挖掘算法和图形计算算法。 Spark Streaming是一种构建在Spark上的实时计算框架，它扩展了Spark处理大规模流式数据的能力。

初步学习以后，SparkStreaming还是比较容易上手的，使用Spark Streaming的重心在数据流的处理上，接收数据流的工作，Spark Streaming都已经封装好了。Spark Streaming的基本原理是将输入数据流以时间片（秒级）为单位进行拆分，然后以类似批处理的方式处理每个时间片数据，其基本原理如图所示。

首先，SparkStreaming把实时输入数据流以时间片Δt （如1秒）为单位切分成块。Spark Streaming会把每块数据作为一个RDD，并使用RDD操作处理每一小块数据。每个块都会生成一个Spark Job处理，最终结果也返回多块。

Spark Streaming可以接收多种来源的数据，然后将数据存储到多种介质上。

2.简单使用

使用Spark Streaming，可以运行在yarn上，即运行在Sparkon Yarn模式上，也可以运行在原生Hadoop环境上。Spark On Yarn环境通常是使用CDH集成环境，网络上有很多搭建环境的教程，但搭建CDH需要的主机资源较多，在学习阶段，可以运行在原生Hadoop环境上，本教程讲述的是在Spark的StandAlone模式下运行的方法。下面一步步介绍一下环境的搭建过程。