我的Spark学习笔记(六)

本节主要说明如何通过REST API提交任务、查询任务状态等。高版本的Spark已不提倡通过REST API提交任务了。

启动Master:

# pwd
/usr/local/src/spark-2.2.0-bin-hadoop2.7/sbin
# start-master.sh

下面的jar包就是我们前面提到的。我没有换行,一旦换行了,在Linux环境下,很难输入。

# curl -X POST http://127.0.0.1:6066/v1/submissions/create --header "Content-Type:application/json;charset=UTF-8" --data '{"action":"CreateSubmissionRequest","appArgs":[],"appResource":"file:/root/jinjiankang/ScalaHelloWorld.jar","clientSparkVersion":"2.2.0","environmentVariables":{"SPARK_ENV_LOADED":"1"},"mainClass":"com.jjk.Hello","sparkProperties":{"spark.jars":"file:/root/jinjiankang/ScalaHelloWorld.jar","spark.driver.supervise":"false","spark.app.name":"doJob","spark.eventLog.enabled":"true","spark.submit.deployMode":"cluster","spark.master":"spark://127.0.0.1:6066"}}'

服务端立即返回:

{
  "action" : "CreateSubmissionResponse",
  "message" : "Driver successfully submitted as driver-20191206135034-0000",
  "serverSparkVersion" : "2.2.0",
  "submissionId" : "driver-20191206135034-0000",
  "success" : true
}

查询任务状态,注意submissionId就来自上面的响应:

# curl http://127.0.0.1:6066/v1/submissions/status/driver-20191206135034-0000
{
  "action" : "SubmissionStatusResponse",
  "driverState" : "SUBMITTED",
  "serverSparkVersion" : "2.2.0",
  "submissionId" : "driver-20191206135034-0000",
  "success" : true
}

杀死任务:

# curl -X POST http://127.0.0.1:6066/v1/submissions/kill/driver-20191206135034-0000
{
  "action" : "KillSubmissionResponse",
  "message" : "Kill request for driver-20191206135034-0000 submitted",
  "serverSparkVersion" : "2.2.0",
  "submissionId" : "driver-20191206135034-0000",
  "success" : true
}

再次查询任务状态:

# curl http://127.0.0.1:6066/v1/submissions/status/driver-20191206135034-0000
{
  "action" : "SubmissionStatusResponse",
  "driverState" : "KILLED",
  "serverSparkVersion" : "2.2.0",
  "submissionId" : "driver-20191206135034-0000",
  "success" : true
}

你注意到了吗,我们的任务非常简单,仅输出一行“hello world”,为什么任务状态不是“已成功”呢?还未启动slave,即worker:

start-slave.sh spark://127.0.0.1:7077

再次提交任务后,查询状态:

# curl http://127.0.0.1:6066/v1/submissions/status/driver-20191206151415-0001
{
  "action" : "SubmissionStatusResponse",
  "driverState" : "FINISHED",
  "serverSparkVersion" : "2.2.0",
  "submissionId" : "driver-20191206151415-0001",
  "success" : true,
  "workerHostPort" : "172.17.0.17:46073",
  "workerId" : "worker-20191206151301-172.17.0.17-46073"
}

修改代码逻辑,故意抛出运行期异常。再次提交任务后,再次查询状态:

# curl http://127.0.0.1:6066/v1/submissions/status/driver-20191206161152-0000
{
  "action" : "SubmissionStatusResponse",
  "driverState" : "FAILED",
  "serverSparkVersion" : "2.2.0",
  "submissionId" : "driver-20191206161152-0000",
  "success" : true,
  "workerHostPort" : "172.17.0.17:46073",
  "workerId" : "worker-20191206151301-172.17.0.17-46073"
}

这次看到了“FAILED”。

TODO:如何才能体验下“ERROR”呢?

DriverState.scala源码:

package org.apache.spark.deploy.master

private[deploy] object DriverState extends Enumeration {

  type DriverState = Value

  // SUBMITTED: Submitted but not yet scheduled on a worker
  // RUNNING: Has been allocated to a worker to run
  // FINISHED: Previously ran and exited cleanly
  // RELAUNCHING: Exited non-zero or due to worker failure, but has not yet started running again
  // UNKNOWN: The state of the driver is temporarily not known due to master failure recovery
  // KILLED: A user manually killed this driver
  // FAILED: The driver exited non-zero and was not supervised
  // ERROR: Unable to run or restart due to an unrecoverable error (e.g. missing jar file)
  val SUBMITTED, RUNNING, FINISHED, RELAUNCHING, UNKNOWN, KILLED, FAILED, ERROR = Value
}

补充,在Standalone高可用集群环境下测试:

curl -X POST http://YOUR-MASTER-IP:6066/v1/submissions/create --header "Content-Type:application/json;charset=UTF-8" --data '{"action":"CreateSubmissionRequest","appArgs":[],"appResource":"file:/export/servers/spark/examples/jars/spark-examples_2.11-2.1.1.jar","clientSparkVersion":"2.1.1","environmentVariables":{"SPARK_ENV_LOADED":"1"},"mainClass":"org.apache.spark.examples.SparkPi","sparkProperties":{"spark.jars":"file:/export/servers/spark/examples/jars/spark-examples_2.11-2.1.1.jar","spark.driver.supervise":"false","spark.app.name":"REST-PI","spark.eventLog.enabled":"true","spark.submit.deployMode":"cluster","spark.master":"spark://YOUR-MASTER-IP:6066"}}'

立即返回:

{
  "action" : "CreateSubmissionResponse",
  "message" : "Driver successfully submitted as driver-20191219161132-0003",
  "serverSparkVersion" : "2.1.1",
  "submissionId" : "driver-20191219161132-0003",
  "success" : true
}

查询任务状态:

curl http://YOUR-MASTER-IP:6066/v1/submissions/status/driver-20191219161132-0003

立即返回:

{
  "action" : "SubmissionStatusResponse",
  "driverState" : "FINISHED",
  "serverSparkVersion" : "2.1.1",
  "submissionId" : "driver-20191219161132-0003",
  "success" : true,
  "workerHostPort" : "10.240.2.10:23300",
  "workerId" : "worker-20191219150502-10.240.2.10-23300"
}

Spark配置说明:http://spark.apache.org/docs/latest/configuration.html

问题:在集群环境里,假设A(alive)、B(standby)、C(standby),你在A主机上执行上述REST接口,一切OK,但如果在B或C上执行,就会得到:

{
  "action" : "SubmissionStatusResponse",
  "message" : "Exception from the cluster:\njava.lang.Exception: Current state is not alive: STANDBY. Can only request driver status in ALIVE state.\n\torg.apache.spark.deploy.master.Master$$anonfun$receiveAndReply$1.applyOrElse(Master.scala:470)\n\torg.apache.spark.rpc.netty.Inbox$$anonfun$process$1.apply$mcV$sp(Inbox.scala:105)\n\torg.apache.spark.rpc.netty.Inbox.safelyCall(Inbox.scala:205)\n\torg.apache.spark.rpc.netty.Inbox.process(Inbox.scala:101)\n\torg.apache.spark.rpc.netty.Dispatcher$MessageLoop.run(Dispatcher.scala:213)\n\tjava.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)\n\tjava.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)\n\tjava.lang.Thread.run(Thread.java:745)",
  "serverSparkVersion" : "2.1.1",
  "submissionId" : "driver-20191219165731-0006",
  "success" : false
}

关键信息:
Exception from the cluster:
java.lang.Exception: Current state is not alive: STANDBY.
Can only request driver status in ALIVE state.

在集群环境了,如何才能知道哪个master处于ALIVE 状态呢?谁知道请留言。

一种笨的方法是,使用HTMLParser等组件,通过程序遍历集群里每个spark web ui地址,解析页面元素,如果发现特征字符串“Status:ALIVE”,那它就处于ALIVE 状态。

还有一种办法,没有验证过,那就是Zookeeper节点数里一定记录了当前处于ALIVE 状态的master信息。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Spark SQL是Apache Spark中的一个模块,它提供了一种基于结构化数据的编程接口。Spark SQL可以让用户使用SQL语句来查询数据,也可以让用户使用DataFrame API来进行数据处理和分析。Spark SQL支持多种数据源,包括Hive、JSON、Parquet等。Spark SQL还提供了一些高级功能,如支持用户自定义函数、支持分布式机器学习算法等。Spark SQL的目标是让用户能够方便地使用Spark进行数据处理和分析,同时提供高性能和可扩展性。 ### 回答2: Spark SQL是一个基于Spark平台的关系型数据处理引擎,它支持使用SQL语句和数据框架操作数据,可以轻松处理结构化和半结构化的数据。它可以从多个数据源中读取数据,包括Hive、JSON、Parquet、ORC等。通过Spark SQL,用户可以方便地使用SQL查询语言来分析和处理数据,大大降低了开发和组织数据流的难度。 Spark SQL主要有两种执行模式:SQL查询和DataFrame操作。其中SQL查询基于Hive的SQL语法解析器,支持HiveQL中的大多数语言特性(如UDF、窗口函数等)。在执行计划生成时,Spark SQL采用了Spark的计算引擎,支持各种Spark算子的优化,以便最大程度地提高查询性能。 另一种操作模式是使用DataFrame API,它可以灵活地进行数据转换和处理,并提供了类似于SQL的语法。与SQL查询不同,DataFrame API通过静态检查和编译器优化来避免由SQL查询引起的语法错误和潜在性能问题。 除了这两种基本的操作模式外,Spark SQL还提供了一些高级特性,如嵌套查询、表和视图、共享变量等。这些特性扩展了Spark SQL的功能,使得它可以更加灵活地进行数据处理和查询。 Spark SQL是Spark的重要组成部分,它在数据存储和处理方面提供了很多便利。通过最大程度地利用Spark引擎的优势,Spark SQL能够处理海量数据,并将其转换为有用的信息。这使得Spark SQL成为实现数据分析、机器学习和人工智能的重要工具之一。 ### 回答3: Spark SQL是一种基于Spark平台的数据处理引擎,它提供了高度优化的查询引擎和优秀的支持SQL语句的API。它允许用户使用SQL语句查询来处理大规模数据集,同时仍然支持复杂数据类型和计算。Spark SQL支持数据源,包括Parquet,Avro,JSON等一系列结构化的和半结构化的数据源。 Spark SQL在历史上是一个单独的模块,在Spark 2.0之后,它已经成为Spark的核心组件之一,可以直接在Spark核心API中使用,包括作为一个RDD库或DataFrame/DataSet的API。 Spark SQL的优点如下: 1. 它可以向受过传统SQL培训的用户展示更高级别,更强大的API。 2. 它提供数据集和RDD的良好互操作性。Spark SQL可以通过未被优化的RDD/DataSet API访问同一数据。 3. 它支持Spark的执行引擎以加速查询处理。 使用Spark SQL的时候,可以根据需要选择编程语言,如Scala,Java,Python,SQL等。在Spark核心API中,Spark SQL提供了两种API来处理结构化数据: 1. DataFrame API:DataFrame是具有许多操纵数据的功能的分布式数据集,类似于数据库中的表。 2. Dataset API:Dataset是Scala和Java API,它是类型安全的,并且提供与RDD API相同的API,但比RDD具有更好的性能和可读性。 Spark SQL是Spark生态系统中重要的组成部分之一。在处理大规模数据时,使用Spark SQL可以方便地利用Spark的强大功能,提高处理效率。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值