spark杂记(一)

最新推荐文章于 2020-07-05 21:04:24 发布

老乔家大哥

最新推荐文章于 2020-07-05 21:04:24 发布

阅读量1k

点赞数

本文链接：https://blog.csdn.net/QIAOtinger/article/details/45250037

版权

大数据同时被 3 个专栏收录

21 篇文章 0 订阅

订阅专栏

hadoop

17 篇文章 0 订阅

订阅专栏

spark

15 篇文章 0 订阅

订阅专栏

1.使用sparksql需要将hive的依赖包加入SPARK_CLASSPATH
2.spark编译时如果需要支持cli，thrift-server则要求protobuf的版本和编译hadoop的protobuf版本一致
3.当以yarn-client模式运行时，driver就运行在客户端的spark-submit进程中，其JVM参数是取的spark-class文件中的设置
4.总结一下Spark中各个角色的JVM参数设置：

(1)Driver的JVM参数：

-Xmx，-Xms，如果是yarn-client模式，则默认读取spark-env文件中的SPARK_DRIVER_MEMORY值，-Xmx，- Xms值一样大小；如果是yarn-cluster模式，则读取的是spark-default.conf文件中的 spark.driver.extraJavaOptions对应的JVM参数值。

PermSize，如果是yarn-client模式，则是默认读取spark-class文件中的 JAVA_OPTS="-XX:MaxPermSize=256m $OUR_JAVA_OPTS"值；如果是yarn-cluster模式，读取的是spark-default.conf文件中的 spark.driver.extraJavaOptions对应的JVM参数值。

GC方式，如果是yarn-client模式，默认读取的是spark-class文件中的JAVA_OPTS；如果是yarn-cluster模式，则读取的是spark-default.conf文件中的spark.driver.extraJavaOptions对应的参数值。

以上值最后均可被spark-submit工具中的--driver-java-options参数覆盖。

(2)Executor的JVM参数：

-Xmx，-Xms，如果是yarn-client模式，则默认读取spark-env文件中的SPARK_EXECUTOR_MEMORY值，- Xmx，-Xms值一样大小；如果是yarn-cluster模式，则读取的是spark-default.conf文件中的 spark.executor.extraJavaOptions对应的JVM参数值。

PermSize，两种模式都是读取的是spark-default.conf文件中的spark.executor.extraJavaOptions对应的JVM参数值。

GC方式，两种模式都是读取的是spark-default.conf文件中的spark.executor.extraJavaOptions对应的JVM参数值。

(3)Executor数目及所占CPU个数

如果是yarn-client模式，Executor数目由spark-env中的SPARK_EXECUTOR_INSTANCES指定，每个实例的数目由SPARK_EXECUTOR_CORES指定；如果是yarn-cluster模式，Executor的数目由spark-submit工具的--num-executors参数指定，默认是2个实例，而每个Executor使用的CPU数目由--executor-cores指定，默认为1核。

5.使用Spark SQL CLI前需要注意：

5.1、将hive-site.xml配置文件拷贝到$SPARK_HOME/conf目录下；

5.2、

需要在$SPARK_HOME/conf/spark-env.sh中的SPARK_CLASSPATH添加jdbc驱动的jar包

export SPARK_CLASSPATH=$SPARK_CLASSPATH:/home/Hadoop/software/mysql-connector-java-5.1.27-bin.jar

Spark SQL CLI命令参数介绍：

cd $SPARK_HOME/bin

spark-sql --help

spark-sql 默认是以client方式启动

--executor-memory 2G 设置的是UI页面上应用程序的Memory per Node

6.spark streaming测试

在shell中

import org.apache.spark._

import org.apache.spark.streaming._

import org.apache.spark.streaming.StreamingContext._

val conf = new SparkConf().setMaster("local[2]").setAppName("NetworkWordCount")

val ssc = new StreamingContext(conf, Seconds(1))

val lines = ssc.socketTextStream("192.168.2.205", 9999)

val words = lines.flatMap(_.split(" "))

val pairs = words.map(word => (word, 1))

val wordCounts = pairs.reduceByKey(_ + _)

wordCounts.print()

ssc.start()

ssc.awaitTermination()

然后用nc -lk 9999造数据

另外，Spark Streaming有特定的窗口操作，窗口操作涉及两个参数：一个是滑动窗口的宽度（Window Duration）；另一个是窗口滑动的频率（Slide Duration），这两个参数必须是batch size的倍数。例如以过去5秒钟为一个输入窗口，每1秒统计一下WordCount，那么我们会将过去5秒钟的每一秒钟的WordCount都进行统计，然后进行叠加，得出这个窗口中的单词统计。

val wordCounts = words.map(x => (x, 1)).reduceByKeyAndWindow(_ + _, Seconds(5s)，seconds(1))

但上面这种方式还不够高效。如果我们以增量的方式来计算就更加高效，例如，计算t+4秒这个时刻过去5秒窗口的WordCount，那么我们可以将t+3时刻过去5秒的统计量加上[t+3，t+4]的统计量，在减去[t-2，t-1]的统计量（如图5所示），这种方法可以复用中间三秒的统计量，提高统计的效率。

val wordCounts = words.map(x => (x, 1)).reduceByKeyAndWindow(_ + _, _ - _, Seconds(5s)，seconds(1))

reduceByKeyAndWindow((a:Int,b:Int) => (a + b), Seconds(30), Seconds(10))