spark 写本地文件_大数据Spark:运行环境_Local模式与相关配置详解

592994413de57f43bd5a01653726d5d8.png

Spark运行环境

Spark作为一个数据处理框架和计算引擎,被设计在所有常见的集群环境中运行, 在国内工作中主流的环境为Yarn,不过逐渐容器式环境也慢慢流行起来。接下来,我们就分别看看不同环境下Spark的运行

35dd1b1ecb33fcf54780528edbd19035.png

3.1 Local模式

所谓的Local模式,就是不需要其他任何节点资源就可以在本地执行Spark代码的环境,一般用于教学,调试,演示等。

3.1.1 解压缩文件

将spark-3.0.0-bin-hadoop3.2.tgz文件上传到Linux并解压缩,放置在指定位置,路径中不要包含中文或空格,后续如果涉及到解压缩操作,不再强调。

tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/modulecd /opt/module mv spark-3.0.0-bin-hadoop3.2 spark-local

3.1.2 启动Local环境

1) 进入解压缩后的路径,执行如下指令

[bigdata@hadoop102 spark-local]$ bin/spark-shell

2) 启动成功后,可以输入网址进行Web UI监控页面访问

http://虚拟机地址:4040

3.1.3 命令行工具

在解压缩文件夹下的data目录中,添加word.txt文件。在命令行工具中执行如下代码指令(和IDEA中代码简化版一致)

sc.textFile("data/word.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

3.1.4 退出本地模式

按键Ctrl+C或输入Scala指令

:quit

3.1.5 提交应用

bin/spark-submit --class org.apache.spark.examples.SparkPi --master local[*] ./examples/jars/spark-examples_2.12-3.0.0.jar 10

1) --class表示要执行程序的主类

2) --master local[*] 部署模式,默认为本地模式,数字表示分配的虚拟CPU核数量

3) spark-examples_2.12-3.0.0.jar 运行的应用类所在的jar包

4) 数字10表示程序的入口参数,用于设定当前应用的任务数量

3.1.6 提交参数说明

在提交应用中,一般会同时提交一些参数

bin/spark-submit --class --master  ... # other options [application-arguments]
95120c95e2084dff33dd289619392fca.png

你的赞,我都当成喜欢。

专注分享大数据技术&智能技术&基础&实战,干货,资料。

关注本号,让更多人了解技术,让技术造福更多人。欢迎转发传播,感谢您的关注,谢谢。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值