spark 写本地文件_大数据Spark：运行环境_Local模式与相关配置详解

最新推荐文章于 2023-11-08 16:04:32 发布

weixin_39624774

最新推荐文章于 2023-11-08 16:04:32 发布

阅读量265

点赞数

文章标签： spark 写本地文件

本文链接：https://blog.csdn.net/weixin_39624774/article/details/111577352

版权

Spark运行环境

Spark作为一个数据处理框架和计算引擎，被设计在所有常见的集群环境中运行, 在国内工作中主流的环境为Yarn，不过逐渐容器式环境也慢慢流行起来。接下来，我们就分别看看不同环境下Spark的运行

所谓的Local模式，就是不需要其他任何节点资源就可以在本地执行Spark代码的环境，一般用于教学，调试，演示等。

将spark-3.0.0-bin-hadoop3.2.tgz文件上传到Linux并解压缩，放置在指定位置，路径中不要包含中文或空格，后续如果涉及到解压缩操作，不再强调。

tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/modulecd /opt/module mv spark-3.0.0-bin-hadoop3.2 spark-local

1) 进入解压缩后的路径，执行如下指令

[bigdata@hadoop102 spark-local]$ bin/spark-shell

2) 启动成功后，可以输入网址进行Web UI监控页面访问

http://虚拟机地址:4040

在解压缩文件夹下的data目录中，添加word.txt文件。在命令行工具中执行如下代码指令(和IDEA中代码简化版一致)

sc.textFile("data/word.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

按键Ctrl+C或输入Scala指令

:quit

bin/spark-submit --class org.apache.spark.examples.SparkPi --master local[*] ./examples/jars/spark-examples_2.12-3.0.0.jar 10

1) --class表示要执行程序的主类

2) --master local[*] 部署模式，默认为本地模式，数字表示分配的虚拟CPU核数量

3) spark-examples_2.12-3.0.0.jar 运行的应用类所在的jar包

4) 数字10表示程序的入口参数，用于设定当前应用的任务数量

在提交应用中，一般会同时提交一些参数

bin/spark-submit --class --master  ... # other options [application-arguments]

你的赞，我都当成喜欢。

专注分享大数据技术&智能技术&基础&实战，干货，资料。

关注本号，让更多人了解技术，让技术造福更多人。欢迎转发传播，感谢您的关注，谢谢。

weixin_39624774

关注