分布式系统详解--框架（Spark-安装部署）

最新推荐文章于 2024-10-06 19:51:33 发布

JAVA和人工智能

最新推荐文章于 2024-10-06 19:51:33 发布

阅读量413

点赞数

分类专栏： spark 文章标签： spark安装分布式

spark 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

分布式系统详解--框架（Spark-安装部署）

在Spark 2.0之前，Spark的主要编程接口是弹性分布式数据集（RDD）。在Spark 2.0之后，RDD被数据集取代，数据集类似于RDD一样强类型，但在底层有更丰富的优化。仍然支持RDD接口，您可以在RDD编程指南中获得更完整的参考。

一、安装简介

Spark运行环境：

Spark是Scala写的，运行在JVM上，所以运行环境是Java7+。

如果使用Python API,需要安装python2.6+或者Python3.4+。

Spark 版本和Scala版本之间的关系

Spark1.6.2—Scala2.10，Spark2.0.0—Scala2.11。

Spark 下载：

下载地址：http://spark.apache.org/downloads.html。

搭建Spark不需要安装Hadoop，如果有Hadoop集群，可下载相应的版本。

二、下载安装

2.1 下载解压

下载的目录（个人）：/opt/

解压目录：/usr/local/Spark

tar zxvf spark-2.3.2-bin-hadoop2.6.tgz -C /usr/local/Spark

2.2 Spark目录

bin ：可执行文件

conf：配置文件

data：例子里面用到的数据

examples ：单机的Spark Job，自带例子源代码

lib：Jar包

licenses ：协议声明文件

sbin：集群启停脚本

core，streaming，python。。包含主要组件的源代码。

三、Spark shell

Spark shell 使你能够处理分布在集群上的数据。

Spark把数据加载在节点的内存中，因此分布式处理可以在秒级完成。

快速时迭代式计算，实时查询、分析一般能够在shells中完成。

Spark 提供了Python shells 和Scala shells。

四、Spark shell 举例

4.1 运行spark shell

./bin/spark-shell

4.2 加载文件

<!--系统内部文件-->
[root@centos01 sparkfile]# vi sparkfile.txt 
hello spark
hello world
spark file

<!--加载文件-->
scala> val lines = sc.textFile("../sparkfile/sparkfile.txt")
lines: org.apache.spark.rdd.RDD[String] = ../sparkfile/sparkfile.txt MapPartitionsRDD[1] at textFile at <console>:24

4.3 查看行数

scala> lines.count()
res0: Long = 3

4.4 查看第一行信息

scala> lines.first
res1: String = hello spark

scala>

4.5 修改日志级别。

[root@centos01 spark-2.3.2-bin-hadoop2.6]# cp ./conf/log4j.properties.template ./conf/log4j.properties
[root@centos01 spark-2.3.2-bin-hadoop2.6]# vi ./conf/log4j.properties