Spark 架构，计算

最新推荐文章于 2024-04-17 18:52:51 发布

JIE_ling8

最新推荐文章于 2024-04-17 18:52:51 发布

阅读量2.6k

点赞数

分类专栏：总结文章标签： spark 架构 scala

本文链接：https://blog.csdn.net/JIE_ling8/article/details/121279366

版权

总结专栏收录该内容

56 篇文章 1 订阅

订阅专栏

1.架构设计图

用户交互方式

1、spark-shell:spark命令行方式来操作spark作业。

- 多用于简单的学习、测试、简易作业操作。

2、spark-submit:通过程序脚本，提交相关的代码、依赖等来操作spark作业。

- 最多见的提交任务的交互方式，简单易用、参数齐全。

3、spark-sql:通过sql的方式操作spark作业。

- sql相关的学习、测试、生产环境研发均可以使用该直接操作交互方式。

4、spark-class:最低层的调用方式，其它调用方式多是最终转化到该方式中去提交。

- 直接使用较少

5、sparkR,sparkPython:通过其它非java、非scala语言直接操作spark作业的方式。

- R、python语言使用者的交互方式。

三种运行方式：

1.linux 本地方式
开发环境打包：跟之前的maven打包完全一致
编写Shell运行脚本：
注意修改代码中的setMaster代码，将之前代码设置注释掉
String filePath=“file:C:/Users/USB/Desktop/SpackTest.txt”; 改为动态传参

2.集群方式
注意输入路径，应改为hdfs等分布式文件系统的路径
yarn-client等于–master设置成yarn，deploy-mode设置成client

3.yarn-cluster
注意输入路径，应改为hdfs等分布式文件系统的路径
yarn-cluster等于–master设置成yarn，–deploy-mode设置成cluster

脚本java运行：

#! /bin/sh
# 配置成hadoop配置文件存放目录
export HADOOP_CONF_DIR=/usr/hdp/3.1.0.0-78/hadoop/conf/
spark-submit \
--class com.tl.job014.spark.SparkWordCount4Java \
--master local[2] \本地
--master yarn-client \   集群方式yarn-client运行
--master yarn-cluster \   读取hdfs分布式文件系统
--driver-memory 512m \
--executor-memory 512m \
--num-executors 2 \
/home/zel/job014/FirstSparkWordCount4Java/FirstSpark4Java-jar-with-dependencies.jar \
file:///home/zel/job014/FirstSparkWordCount4Java/input.txt
#hdfs://cluster0.hadoop:8020/tmp/spark/input.txt

1.5 maven构建scala项目
搭建步骤

1）安装对应的maven构建scala的archetype

2）新建maven scala archetype项目

3）修改模板构建完成项目配置参数

4）运行模板自带的scala案例

5）自定义编程实现HelloWorld案例

6）package打包-不带依赖jar的打包

7）package打包-带依赖jar的all-in-one打包

在window运行jar

JIE_ling8

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark 架构，计算

1.架构设计图2.用户交互方式1、spark-shell:spark命令行方式来操作spark作业。多用于简单的学习、测试、简易作业操作。 2、spark-submit:通过程序脚本，提交相关的代码、依赖等来操作spark作业。最多见的提交任务的交互方式，简单易用、参数齐全。 3、spark-sql:通过sql的方式操作spark作业。 sql相关的学习、测试、生产环境研发均可以使用该直接操作交互方式。 4、spark-class:最低层的调用方式，其它调.
复制链接

扫一扫