spark-shell到sparkcontext的过程


在bin/spark-shell 中会调用spark-submit
function main() {
  if $cygwin; then
    # Workaround for issue involving JLine and Cygwin
    # (see http://sourceforge.net/p/jline/bugs/40/).
    # If you're using the Mintty terminal emulator in Cygwin, may need to set the
    # "Backspace sends ^H" setting in "Keys" section of the Mintty options
    # (see https://github.com/sbt/sbt/issues/562).
    stty -icanon min 1 -echo > /dev/null 2>&1
    export SPARK_SUBMIT_OPTS="$SPARK_SUBMIT_OPTS -Djline.terminal=unix"
    "${SPARK_HOME}"/bin/spark-submit --class org.apache.spark.repl.Main --name "Spark shell" "$@"
    stty icanon echo > /dev/null 2>&1
  else
    export SPARK_SUBMIT_OPTS
    "${SPARK_HOME}"/bin/spark-submit --class org.apache.spark.repl.Main --name "Spark shell" "$@"
  fi
}

"bin/spark-submit" 中会继续调用spark-class,并制定执行类org.apache.spark.deploy.SparkSubmit

if [ -z "${SPARK_HOME}" ]; then
  source "$(dirname "$0")"/find-spark-home
fi

# disable randomized hash for string in Python 3.3+
export PYTHONHASHSEED=0

exec "${SPARK_HOME}"/bin/spark-class org.apache.spark.deploy.SparkSubmit "$@"
在bin/spark-class中
首先找到runner,这里看到是调用java
# Find the java binary
if [ -n "${JAVA_HOME}" ]; then
  RUNNER="${JAVA_HOME}/bin/java"
else
  if [ "$(command -v java)" ]; then
    RUNNER="java"
  else
    echo "JAVA_HOME is not set" >&2
    exit 1
  fi
fi

可以看到是调用java 运行org.apache.spark.launcher.Main 这个类

build_command() {
  "$RUNNER" -Xmx128m -cp "$LAUNCH_CLASSPATH" org.apache.spark.launcher.Main "$@"
  printf "%d\0" $?
}
下面将build_command 中的保存到CMD
set +o posix
CMD=()
while IFS= read -d '' -r ARG; do
  CMD+=("$ARG")
done < <(build_command "$@")

最后执行java
CMD=("${CMD[@]:0:$LAST}")
exec "${CMD[@]}"


最终在launcher.Main 中调用sparksubmit->repl->sparkloop.process->initializespark->createsparkcontext 至此最重要的
sparkcontext登场了

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
以下是使用maven对hudi进行构建并与spark集成的步骤: 1. 下载hudi源码 可以从hudi的官方github仓库中下载源码,链接为:https://github.com/apache/hudi 2. 构建hudi 进入hudi源码目录,使用以下命令进行构建: ``` mvn clean package -DskipTests -Dspark.version=3.1.1 -Dscala-2.12 ``` 其中,-DskipTests表示跳过测试,-Dspark.version指定spark版本,-Dscala-2.12指定scala版本。 构建完成后,会在hudi的target目录下生成hudi-xxx.jar包。 3. 将hudi与spark集成 将hudi-xxx.jar包加入到spark的classpath中,可以通过以下命令进行添加: ``` export SPARK_DIST_CLASSPATH=$(hadoop classpath):/path/to/hudi-xxx.jar ``` 其中,/path/to/hudi-xxx.jar需要替换为hudi-xxx.jar包的实际路径。 4. 使用spark-shell操作hudi 启动spark-shell,运行以下命令,可以创建一个hudi表: ``` import org.apache.spark.sql.SaveMode import org.apache.hudi.QuickstartUtils._ val tableName = "hudi_test" val basePath = "/tmp/hudi_test" val dataGen = new DataGenerator val inserts = dataGen.generateInserts(10) val df = spark.read.json(spark.sparkContext.parallelize(inserts, 2)) df.write.format("org.apache.hudi"). options(getQuickstartWriteConfigs). option(PRECOMBINE_FIELD_OPT_KEY, "ts"). option(RECORDKEY_FIELD_OPT_KEY, "uuid"). option(PARTITIONPATH_FIELD_OPT_KEY, "partitionpath"). option(TABLE_NAME, tableName). mode(SaveMode.Append). save(basePath) ``` 运行以上命令后,会在/tmp/hudi_test目录下创建一个hudi表hudi_test。 接下来,可以使用spark-shell的API对hudi表进行操作,例如: ``` import org.apache.spark.sql.functions._ val df = spark.read.format("org.apache.hudi"). load("/tmp/hudi_test/*/*/*/*") df.show() ``` 以上命令会读取hudi_test表的数据,并展示结果。 至此,使用maven对hudi进行构建并与spark集成的步骤结束,可以使用spark-shell对hudi进行操作了。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值