Spark搭建和使用

最新推荐文章于 2024-06-15 20:39:43 发布

为何而努力

最新推荐文章于 2024-06-15 20:39:43 发布

阅读量508

点赞数

分类专栏： linux hive scala 文章标签： apache spark spark hadoop 大数据分布式

本文链接：https://blog.csdn.net/hjs19981227/article/details/107756251

版权

本文详细介绍了Spark的搭建过程，包括Standalone、Yarn和Mesos等模式，以及Java-Scala混编Maven项目的创建。深入探讨了SparkCore中的RDD、任务执行原理和内存管理。讲解了Spark与MapReduce的区别，以及如何通过Action和Transformation算子进行数据处理。此外，文章还涵盖了Spark在集群中的部署和测试，包括Standalone模式的client和cluster提交任务方式，以及Yarn模式的提交。最后讨论了SparkStreaming的原理、与Storm的区别、DStream操作和Kafka的集成。

摘要由CSDN通过智能技术生成

Spark搭建和使用

Spark-day01

1.Spark初始

1.什么是Spark

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架，Spark拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

Spark是Scala编写，方便快速编程。

2.总体技术栈讲解

在这里插入图片描述

3.Spark演变历史

4.Spark与MapReduce的区别

都是分布式计算框架，Spark基于内存，MR基于HDFS。Spark处理数据的能力一般是MR的十倍以上，Spark中除了基于内存计算外，还有DAG有向无环图来切分任务的执行先后顺序。

5.Spark运行模式

Local
多用于本地测试，如在eclipse，idea中写程序测试等。
Standalone
Standalone是Spark自带的一个资源调度框架，它支持完全分布式。
Yarn
Hadoop生态圈里面的一个资源调度框架，Spark也是可以基于Yarn来计算的。
Mesos
资源调度框架。
要基于Yarn来进行资源调度，必须实现AppalicationMaster接口，Spark实现了这个接口，所以可以基于Yarn。

2.Spark Java-Scala 混编Maven开发

1.IDEA创建Maven 项目

1)创建项目

在这里插入图片描述

2)创建选择 maven-archetype-quickstart

在这里插入图片描述

3)配置名称，点击下一步配置Maven及本地Maven仓库地址。

![在这里插入图片描述](https://img-blog.csdnimg.cn/2020080309270957.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2hqczE5OTgxMjI3,size_16,color_FFFFFF,t_70)


4)配置项目名称和位置，并创建。

在这里插入图片描述

5)更新替换Maven pom.xml文件,注意groupId，artifactId，version不要更新替换。

6)在main 目录下创建javaCode和scalaCode 并指定为源目录。名称任意。

在这里插入图片描述

将main下的javaCode和scalaCode指定为源目录：

在这里插入图片描述

2.配置的pom.xml文件

附件：

<?xml version="1.0" encoding="UTF-8"?>

4.0.0

<groupId>com.bjsxt.spark</groupId>
<artifactId>MySpark</artifactId>
<version>1.0-SNAPSHOT</version>

<!-- 配置以下可以解决 在jdk1.8环境下打包时报错 “-source 1.5 中不支持 lambda 表达式” -->
<properties>
    <maven.compiler.source>1.8</maven.compiler.source>
    <maven.compiler.target>1.8</maven.compiler.target>
</properties>

<dependencies>
    <!-- Spark-core -->
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-core_2.11</artifactId>
        <version>2.3.1</version>
    </dependency>
    <!-- SparkSQL -->
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-sql_2.11</artifactId>
        <version>2.3.1</version>
    </dependency>
    <!-- SparkSQL  ON  Hive-->
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-hive_2.11</artifactId>
        <version>2.3.1</version>
    </dependency>
    <!--mysql依赖的jar包-->
    <dependency>
        <groupId>mysql</groupId>
        <artifactId>mysql-connector-java</artifactId>
        <version>5.1.47</version>
    </dependency>
    <!--SparkStreaming-->
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-streaming_2.11</artifactId>
        <version>2.3.1</version>
        <!--<scope>provided</scope>-->
    </dependency>
    <!-- SparkStreaming + Kafka -->
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-streaming-kafka-0-10_2.11</artifactId>
        <version>2.3.1</version>
    </dependency>
    <!-- 向kafka 生产数据需要包 -->
    <dependency>
        <groupId>org.apache.kafka</groupId>
        <artifactId>kafka-clients</artifactId>
        <version>0.10.0.0</version>
    </dependency>
    <!--连接 Redis 需要的包-->
    <dependency>
        <groupId>redis.clients</groupId>
        <artifactId>jedis</artifactId>
        <version>2.6.1</version>
    </dependency>

    <!-- Scala 包-->
    <dependency>
        <groupId>org.scala-lang</groupId>
        <artifactId>scala-library</artifactId>
        <version>2.11.7</version>
    </dependency>
    <dependency>
        <groupId>org.scala-lang</groupId>
        <artifactId>scala-compiler</artifactId>
        <version>2.11.7</version>
    </dependency>
    <dependency>
        <groupId>org.scala-lang</groupId>
        <artifactId>scala-reflect</artifactId>
        <version>2.11.7</version>
    </dependency>
    <dependency>
        <groupId>log4j</groupId>
        <artifactId>log4j</artifactId>
        <version>1.2.12</version>
    </dependency>
    <dependency>
        <groupId>com.google.collections</groupId>
        <artifactId>google-collections</artifactId>
        <version>1.0</version>
    </dependency>
</dependencies>

<build>
    <plugins>

        <!-- 在maven项目中既有java又有scala代码时配置 maven-scala-plugin 插件打包时可以将两类代码一起打包 -->
        <plugin>
            <groupId>org.scala-tools</groupId>
            <artifactId>maven-scala-plugin</artifactId>
            <version>2.15.2</version>
            <executions>
                <execution>
                    <goals>
                        <goal>compile</goal>
                        <goal>testCompile</goal>
                    </goals>
                </execution>
            </executions>
        </plugin>

        <!-- maven 打jar包需要插件 -->
        <plugin>
            <artifactId>maven-assembly-plugin</artifactId>
            <version>2.4</version>
            <configuration>
                <!-- 设置false后是去掉 MySpark-1.0-SNAPSHOT-jar-with-dependencies.jar 后的 “-jar-with-dependencies” -->
                <!--<appendAssemblyId>false</appendAssemblyId>-->
                <descriptorRefs>
                    <descriptorRef>jar-with-dependencies</descriptorRef>
                </descriptorRefs>
                <archive>
                    <manifest>
                        <mainClass>com.bjsxt.scalaspark.sql.windows.OverFunctionOnHive</mainClass>
                    </manifest>
                </archive>
            </configuration>
            <executions>
                <execution>
                    <id>make-assembly</id>
                    <phase>package</phase>
                    <goals>
                        <goal>assembly</goal>
                    </goals>
                </execution>
            </executions>
        </plugin>
        <!-- 以上assembly可以将依赖的包打入到一个jar包中，下面这种方式是使用maven原生的方式打jar包，不将依赖的包打入到最终的jar包中 -->
        <!--<plugin>-->
            <!--<groupId>org.apache.maven.plugins</groupId>-->
            <!--<artifactId>maven-jar-plugin</artifactId>-->
            <!--<version>2.4</version>-->
            <!--<configuration>-->
                <!--<archive>-->
                    <!--<manifest>-->
                        <!--<addClasspath>true</addClasspath>-->
                        <!--&lt;!&ndash; 指定当前主类运行时找依赖的jar包时 所有依赖的jar包存放路径的前缀 &ndash;&gt;-->
                        <!--<classpathPrefix>/alljars/lib</classpathPrefix>-->
                        <!--<mainClass>com.bjsxt.javaspark.sql.CreateDataSetFromHive</mainClass>-->
                    <!--</manifest>-->
                <!--</archive>-->
            <!--</configuration>-->
        <!--</plugin>-->
        <!-- 拷贝依赖的jar包到lib目录 -->
        <!--<plugin>-->
            <!--<groupId>org.apache.maven.plugins</groupId>-->
            <!--<artifactId>maven-dependency-plugin</artifactId>-->
            <!--<executions>-->
                <!--<execution>-->
                    <!--<id>copy</id>-->
                    <!--<phase>package</phase>-->
                    <!--<goals>-->
                        <!--<goal>copy-dependencies</goal>-->
                    <!--</goals>-->
                    <!--<configuration>-->
                        <!--<outputDirectory>-->
                            <!--&lt;!&ndash; 将依赖的jar 包复制到target/lib下&ndash;&gt;-->
                            <!--${project.build.directory}/lib-->
                        <!--</outputDirectory>-->
                    <!--</configuration>-->
                <!--</execution>-->
            <!--</executions>-->
        <!--</plugin>-->

    </plugins>
</build>

3.SparkCore

1.RDD

概念
	RDD(Resilient Distributed Dateset)，弹性分布式数据集。
RDD的五大特性：
	1.RDD是由一系列的partition组成的。
	2.函数是作用在每一个partition（split）上的。
	3.RDD之间有一系列的依赖关系。
	4.分区器是作用在K,V格式的RDD上。
	5.RDD提供一系列最佳的计算位置。
RDD理解图:

在这里插入图片描述

注意：
textFile方法底层封装的是读取MR读取文件的方式，读取文件之前先split，默认split大小是一个block大小。
RDD实际上不存储数据，这里方便理解，暂时理解为存储数据。
什么是K,V格式的RDD?
如果RDD里面存储的数据都是二元组对象，那么这个RDD我们就叫做K,V格式的RDD。
哪里体现RDD的弹性（容错）？
partition数量，大小没有限制，体现了RDD的弹性。
RDD之间依赖关系，可以基于上一个RDD重新计算出RDD。
哪里体现RDD的分布式？
RDD是由Partition组成，partition是分布在不同节点上的。
RDD提供计算最佳位置，体现了数据本地化。体现了大数据中“计算移动数据不移动”的理念。

2.Spark任务执行原理

以上图中有四个机器节点，Driver和Worker是启动在节点上的进程，运行在JVM中的进程。
Driver与集群节点之间有频繁的通信。
Driver负责任务(tasks)的分发和结果的回收。任务的调度。如果task的计算结果非常大就不要回收了。会造成oom。
Worker是Standalone资源调度框架里面资源管理的从节点。也是JVM进程。
Master是Standalone资源调度框架里面资源管理的主节点。也是JVM进程。

3.Spark代码流程

1.创建SparkConf对象
可以设置Application name。
可以设置运行模式及资源需求。
2.创建SparkContext对象
3.基于Spark的上下文创建一个RDD，对RDD进行处理。
4.应用程序中要有Action类算子来触发Transformation类算子执行。
5.关闭Spark上下文对象SparkContext。
4.Transformations转换算子
概念：
Transformations类算子是一类算子（函数）叫做转换算子，如map,flatMap,reduceByKey等。Transformations算子是延迟执行，也叫懒加载执行。
Transformation类算子：
filter
过滤符合条件的记录数，true保留，false过滤掉。

map
将一个RDD中的每个数据项，通过map中的函数映射变为一个新的元素。
特点：输入一条，输出一条数据。

flatMap
先map后flat。与map类似，每个输入项可以映射为0到多个输出项。

sample
随机抽样算子，根据传进去的小数按比例进行又放回或者无放回的抽样。

reduceByKey
将相同的Key根据相应的逻辑进行处理。
sortByKey/sortBy
作用在K,V格式的RDD上，对key进行升序或者降序排序。

5.Action行动算子
概念：
Action类算子也是一类算子（函数）叫做行动算子，如foreach,collect，count等。Transformations类算子是延迟执行，Action类算子是触发执行。一个application应用程序中有几个Action类算子执行，就有几个job运行。
Action类算子
count
返回数据集中的元素数。会在结果计算完成后回收到Driver端。
take(n)
返回一个包含数据集前n个元素的集合。

	first
		first=take(1),返回数据集中的第一个元素。

	foreach
		循环遍历数据集中的每个元素，运行相应的逻辑。

	collect
		将计算结果回收到Driver端。

	思考：一千万条数据量的文件，过滤掉出现次数多的记录，并且其余记录按照出现次数降序排序。

文件：

hello bjsxt
hello bjsxt
hello bjsxt1
hello bjsxt
hello bjsxt
hello bjsxt2
hello bjsxt
hello bjsxt
hello bjsxt
hello bjsxt3
hello bjsxt
hello shsxt
hello xasxt
hello jnsxt
hello bjsxt
hello bjsxt
hello bjsxt4
hello bjsxt

代码：

package com.bjsxt.demo;

import java.util.Arrays;
import java.util.List;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.PairFunction;
import org.apache.spark.api.java.function.VoidFunction;

import scala.Tuple2;
/**

动态统计出现次数最多的单词个数，过滤掉。
@author root

*/
public class Demo1 {
public static void main(String[] args) {
SparkConf conf = new SparkConf();
conf.setMaster(“local”).setAppName(“demo1”);
JavaSparkContext jsc = new JavaSparkContext(conf);
JavaRDD lines = jsc.textFile("./records.txt");
JavaRDD flatMap = lines.flatMap(new FlatMapFunction<String, String>() {

		/**
		 * 
		 */
		private static final long serialVersionUID = 1L;

		@Override
		public Iterable<String> call(String t) throws Exception {
			return Arrays.asList(t.split(" "));
		}
	});
	JavaPairRDD<String, Integer> mapToPair = flatMap.mapToPair(new PairFunction<String,String, Integer>() {

		/**
		 * 
		 */
		private static final long serialVersionUID = 1L;

		@Override
		public Tuple2<String, Integer> call(String t) throws Exception {
			return new Tuple2<String, Integer>(t, 1);
		}
	});
	
	JavaPairRDD<String, Integer> sample = mapToPair.sample(true, 0.5);
	
	final List<Tuple2<String, Integer>> take = sample.reduceByKey(new Function2<Integer,Integer,Integer>(){

		/**
		 * 
		 */
		private static final long serialVersionUID = 1L;

		@Override
		public Integer call(Integer v1, Integer v2) throws Exception {
			return v1+v2;
		}
		
	}).mapToPair(new PairFunction<Tuple2<String,Integer>, Integer, String>() {

		/**
		 * 
		 */
		private static final long serialVersionUID = 1L;

		@Override
		public Tuple2<Integer, String> call(Tuple2<String, Integer> t)
				throws Exception {
			return new Tuple2<Integer, String>(t._2, t._1);
		}
	}).sortByKey(false).mapToPair(new PairFunction<Tuple2<Integer,String>, String, Integer>() {

		/**
		 * 
		 */
		private static final long serialVersionUID = 1L;

		@Override
		public Tuple2<String, Integer> call(Tuple2<Integer, String> t)
				throws Exception {
			return new Tuple2<String, Integer>(t._2, t._1);
		}
	}).take(1);
	
	System.out.println("take--------"+take);
	
	JavaPairRDD<String, Integer> result = mapToPair.filter(new Function<Tuple2<String,Integer>, Boolean>() {

		/**
		 * 
		 */
		private static final long serialVersionUID = 1L;

		@Override
		public Boolean call(Tuple2<String, Integer> v1) throws Exception {
			return !v1._1.equals(take.get(0)._1);
		}
	}).reduceByKey(new Function2<Integer,Integer,Integer>(){

		/**
		 * 
		 */
		private static final long serialVersionUID = 1L;

		@Override
		public Integer call(Integer v1, Integer v2) throws Exception {
			return v1+v2;
		}
		
	}).mapToPair(new PairFunction<Tuple2<String,Integer>, Integer, String>() {

		/**
		 * 
		 */
		private static final long serialVersionUID = 1L;

		@Override
		public Tuple2<Integer, String> call(Tuple2<String, Integer> t)
				throws Exception {
			return new Tuple2<Integer, String>(t._2, t._1);
		}
	}).sortByKey(false).mapToPair(new PairFunction<Tuple2<Integer,String>, String, Integer>() {

		/**
		 * 
		 */
		private static final long serialVersionUID = 1L;

		@Override
		public Tuple2<String, Integer> call(Tuple2<Integer, String> t)
				throws Exception {
			return new Tuple2<String, Integer>(t._2, t._1);
		}
	});
	
	result.foreach(new VoidFunction<Tuple2<String,Integer>>() {
		
		/**
		 * 
		 */
		private static final long serialVersionUID = 1L;

		@Override
		public void call(Tuple2<String, Integer> t) throws Exception {
			System.out.println(t);
		}
	});
	
	jsc.stop();
	
}

}

6.控制算子
概念：
控制算子有三种，cache,persist,checkpoint，以上算子都可以将RDD持久化，持久化的单位是partition。cache和persist都是懒执行的。必须有一个action类算子触发执行。checkpoint算子不仅能将RDD持久化到磁盘，还能切断RDD之间的依赖关系。
cache
默认将RDD的数据持久化到内存中。cache是懒执行。
注意：chche () = persist()=persist(StorageLevel.Memory_Only)
测试cache文件：
文件：见“NASA_access_log_Aug95”文件。
测试代码：
SparkConf conf = new SparkConf();
conf.setMaster(“local”).setAppName(“CacheTest”);
JavaSparkContext jsc = new JavaSparkContext(conf);
JavaRDD lines = jsc.textFile("./NASA_access_log_Aug95");

lines = lines.cache();
long startTime = System.currentTimeMillis();
long count = lines.count();
long endTime = System.currentTimeMillis();
System.out.println(“共”+count+ “条数据，”+“初始化时间+cache时间+计算时间=”+
(endTime-startTime));

long countStartTime = System.currentTimeMillis();
long countrResult = lines.count();
long countEndTime = System.currentTimeMillis();
System.out.println(“共”+countrResult+ “条数据，”+“计算时间=”+ (countEndTime-
countStartTime));

jsc.stop();

persist：
可以指定持久化的级别。最常用的是MEMORY_ONLY和MEMORY_AND_DISK。”_2”表示有副本数。
持久化级别如下：
在这里插入图片描述

cache和persist的注意事项：
1.cache和persist都是懒执行，必须有一个action类算子触发执行。
2.cache和persist算子的返回值可以赋值给一个变量，在其他job中直接使用这个变量就是使用持久化的数据了。持久化的单位是partition。
3.cache和persist算子后不能立即紧跟action算子。
4.cache和persist算子持久化的数据当applilcation执行完成之后会被清除。
错误：rdd.cache().count() 返回的不是持久化的RDD，而是一个数值了。
checkpoint
checkpoint将RDD持久化到磁盘，还可以切断RDD之间的依赖关系。checkpoint目录数据当application执行完之后不会被清除。
checkpoint 的执行原理：
1.当RDD的job执行完毕后，会从finalRDD从后往前回溯。
2.当回溯到某一个RDD调用了checkpoint方法，会对当前的RDD做一个标记。
3.Spark框架会自动启动一个新的job，重新计算这个RDD的数据，将数据持久化到HDFS上。
优化：对RDD执行checkpoint之前，最好对这个RDD先执行cache，这样新启动的job只需要将内存中的数据拷贝到HDFS上就可以，省去了重新计算这一步。
使用：
SparkConf conf = new SparkConf();
conf.setMaster(“local”).setAppName(“checkpoint”);
JavaSparkContext sc = new JavaSparkContext(conf);
sc.setCheckpointDir("./checkpoint");
JavaRDD parallelize = sc.parallelize(Arrays.asList(1,2,3));
parallelize.checkpoint();
parallelize.count();
sc.stop();

Spark day2

4.集群搭建以及测试

1.搭建
Standalone
1).下载安装包，解压
在这里插入图片描述

2).改名

3).进入安装包的conf目录下，修改slaves.template文件，添加从节点。保存。
在这里插入图片描述

4).修改spark-env.sh
SPARK_MASTER_IP:master的ip
SPARK_MASTER_PORT:提交任务的端口，默认是7077
SPARK_WORKER_CORES：每个worker从节点能够支配的core的个数
SPARK_WORKER_MEMORY:每个worker从节点能够支配的内存数
在这里插入图片描述

5).同步到其他节点上
<

最低0.47元/天解锁文章

为何而努力

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark搭建和使用

Spark搭建和使用Spark-day011.Spark初始1.什么是SparkApache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架，Spark拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等
复制链接

扫一扫

专栏目录