spark1.0和2.0的区别_大数据技术之Spark2.1.0初体验

最新推荐文章于 2021-01-12 13:35:06 发布

正妻空母加贺桑

最新推荐文章于 2021-01-12 13:35:06 发布

阅读量201

点赞数

文章标签： spark1.0和2.0的区别

本文链接：https://blog.csdn.net/weixin_36118049/article/details/112037285

版权

本篇教程探讨了大数据技术之Spark2.1.0初体验，希望阅读本篇文章以后大家有所收获，帮助大家对大数据技术的理解更加深入。

运行spark-shell

简单运行了spark-shell，并用下图进行了展示(此处再次展示此图)。

图1 执行spark-shell进入Scala命令行

图1中显示了很多信息，这里进行一些说明：

在安装完Spark 2.1.0后，如果没有明确指定log4j的配置，那么Spark会使用core模块的org/apache/spark/目录下的log4j-defaults.properties作为log4j的默认配置。log4j-defaults.properties指定的Spark日志级别为WARN。用户可以到Spark安装目录的conf文件夹下从log4j.properties.template复制一份log4j.properties文件，并在其中增加自己想要的配置。

除了指定log4j.properties文件外，还可以在spark-shell命令行中通过sc.setLogLevel(newLevel)语句指定日志级别。

SparkContext的Web UI的地址是： http://192.168.0.106:4040 。192.168.0.106是笔者安装Spark的机器的ip地址，4040是SparkContext的Web UI的默认监听端口。

指定的部署模式(即master)为local[*]。当前应用(Application)的ID为local-1497084620457。

可以在spark-shell命令行通过sc使用SparkContext，通过spark使用SparkSession。sc和spark实际分别是SparkContext和SparkSession在Spark REPL中的变量名，具体细节已在《Spark2.1.0之剖析spark-shell》一文有过分析。

由于Spark core的默认日志级别是WARN，所以看到的信息不是很多。现在我们将Spark安装目录的conf文件夹下的log4j.properties.template以如下命令复制出一份：

cp log4j.properties.template log4j.properties

并将log4j.properties中的log4j.logger.org.apache.spark.repl.Main=WARN修改为log4j.logger.org.apache.spark.repl.Main=INFO，然后我们再次运行spark-shell，将打印出更丰富的信息，如图2所示。

图2 Spark启动过程打印的部分信息

从图2展示的启动日志中我们可以看到SecurityManager、SparkEnv、BlockManagerMasterEndpoint、DiskBlockManager、MemoryStore、SparkUI、Executor、NettyBlockTransferService、BlockManager、BlockManagerMaster等信息。它们是做什么的？刚刚接触Spark的读者只需要知道这些信息即可，具体内容将在后边的博文给出。

执行word count

这一节，我们通过word count这个耳熟能详的例子来感受下Spark任务的执行过程。启动spark-shell后，会打开Scala命令行，然后按照以下步骤输入脚本：

步骤1

输入val lines =sc.textFile("../README.md", 2)，以Spark安装目录下的README.md文件的内容作为word count例子的数据源，执行结果如图3所示。

图3 步骤1执行结果

图3告诉我们lines的实际类型是MapPartitionsRDD。

步骤2

textFile方法对文本文件是逐行读取的，我们需要输入val words =lines.flatMap(line => line.split(" "))，将每行文本按照空格分隔以得到每个单词，执行结果如图4所示。

图4 步骤2执行结果

图4告诉我们lines在经过flatMap方法的转换后得到的words的实际类型也是MapPartitionsRDD。

步骤3

对于得到的每个单词，通过输入val ones = words.map(w => (w,1))，将每个单词的计数初始化为1，执行结果如图5所示。

图5 步骤3执行结果

图5告诉我们words在经过map方法的转换后得到的ones的实际类型也是MapPartitionsRDD。

步骤4

输入val counts = ones.reduceByKey(_ + _)，对单词进行计数值的聚合，执行结果如图6所示。

图6 步骤4执行结果

图6告诉我们ones在经过reduceByKey方法的转换后得到的counts的实际类型是ShuffledRDD。

步骤5

输入counts.foreach(println)，将每个单词的计数值打印出来，作业的执行过程如图7和图8所示。作业的输出结果如图9所示。

图7 步骤5执行过程第一部分

图8 步骤5执行过程第二部分

图7和图8展示了很多作业提交、执行的信息，这里挑选关键的内容进行介绍：

SparkContext为提交的Job生成的ID是0。

一共有四个RDD，被划分为ResultStage和ShuffleMapStage。ShuffleMapStage的ID为0，尝试号为0。ResultStage的ID为1，尝试号也为0。在Spark中，如果Stage没有执行完成，就会进行多次重试。Stage无论是首次执行还是重试都被视为是一次Stage尝试(Stage Attempt)，每次Attempt都有一个唯一的尝试号(AttemptNumber)。

由于Job有两个分区，所以ShuffleMapStage和ResultStage都有两个Task被提交。每个Task也会有多次尝试，因而也有属于Task的尝试号。从图中看出ShuffleMapStage中的两个Task和ResultStage中的两个Task的尝试号也都是0。

HadoopRDD则用于读取文件内容。

图9 步骤5输出结果

图9展示了单词计数的输出结果和最后打印的任务结束的日志信息。

笔者在本文介绍的word count例子是以SparkContext的API来实现的，读者朋友们也可以选择在spark-shell中通过运用SparkSession的API来实现。

本文由职坐标整理发布，学习更多的大数据技术相关知识，请关注职坐标大技术云计算大技术技术频道！

正妻空母加贺桑

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark1.0和2.0的区别_大数据技术之Spark2.1.0初体验

本篇教程探讨了大数据技术之Spark2.1.0初体验，希望阅读本篇文章以后大家有所收获，帮助大家对大数据技术的理解更加深入。运行spark-shell简单运行了spark-shell，并用下图进行了展示(此处再次展示此图)。图1执行spark-shell进入Scala命令行图1中显示了很多信息，这里进行一些说明：在安装完Spark2.1.0后，如果没有明确指定log4j的配置，那么Spark会...
复制链接

扫一扫