分布式系统详解--框架(Spark-安装部署)
在Spark 2.0之前,Spark的主要编程接口是弹性分布式数据集(RDD)。在Spark 2.0之后,RDD被数据集取代,数据集类似于RDD一样强类型,但在底层有更丰富的优化。仍然支持RDD接口,您可以在RDD编程指南中获得更完整的参考。
一、安装简介
Spark运行环境:
Spark是Scala写的,运行在JVM上,所以运行环境是Java7+。
如果使用Python API,需要安装python2.6+或者Python3.4+。
Spark 版本和Scala版本之间的关系
Spark1.6.2—Scala2.10,Spark2.0.0—Scala2.11。
Spark 下载:
下载地址:http://spark.apache.org/downloads.html。
搭建Spark不需要安装Hadoop,如果有Hadoop集群,可下载相应的版本。
二、下载安装
2.1 下载解压
下载的目录(个人):/opt/
解压目录:/usr/local/Spark
tar zxvf spark-2.3.2-bin-hadoop2.6.tgz -C /usr/local/Spark
2.2 Spark目录
bin : 可执行文件
conf:配置文件
data:例子里面用到的数据
examples :单机的Spark Job,自带例子源代码
lib:Jar包
licenses :协议声明文件
sbin:集群启停脚本
core,streaming,python。。包含主要组件的源代码。
三、Spark shell
Spark shell 使你能够处理分布在集群上的数据。
Spark把数据加载在节点的内存中,因此分布式处理可以在秒级完成。
快速时迭代式计算,实时查询、分析一般能够在shells中完成。
Spark 提供了Python shells 和Scala shells。
四、Spark shell 举例
4.1 运行spark shell
./bin/spark-shell
4.2 加载文件
<!--系统内部文件-->
[root@centos01 sparkfile]# vi sparkfile.txt
hello spark
hello world
spark file
<!--加载文件-->
scala> val lines = sc.textFile("../sparkfile/sparkfile.txt")
lines: org.apache.spark.rdd.RDD[String] = ../sparkfile/sparkfile.txt MapPartitionsRDD[1] at textFile at <console>:24
4.3 查看行数
scala> lines.count()
res0: Long = 3
4.4 查看第一行信息
scala> lines.first
res1: String = hello spark
scala>
4.5 修改日志级别。
[root@centos01 spark-2.3.2-bin-hadoop2.6]# cp ./conf/log4j.properties.template ./conf/log4j.properties
[root@centos01 spark-2.3.2-bin-hadoop2.6]# vi ./conf/log4j.properties
重启spark,便没有info的日志了。
欢迎订阅公众号(JAVA和人工智能)
获取更过免费书籍资源视频资料
精品文章推荐:
3,分布式系统详解 - 框架(zookeeper-简介和集群搭建)