Spark运行环境
Spark作为一个数据处理框架和计算引擎,被设计在所有常见的集群环境中运行, 在国内工作中主流的环境为Yarn,不过逐渐容器式环境也慢慢流行起来。接下来,我们就分别看看不同环境下Spark的运行
3.1 Local模式
所谓的Local模式,就是不需要其他任何节点资源就可以在本地执行Spark代码的环境,一般用于教学,调试,演示等。
3.1.1 解压缩文件
将spark-3.0.0-bin-hadoop3.2.tgz文件上传到Linux并解压缩,放置在指定位置,路径中不要包含中文或空格,后续如果涉及到解压缩操作,不再强调。
tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/modulecd /opt/module mv spark-3.0.0-bin-hadoop3.2 spark-local
3.1.2 启动Local环境
1) 进入解压缩后的路径,执行如下指令
[bigdata@hadoop102 spark-local]$ bin/spark-shell
2) 启动成功后,可以输入网址进行Web UI监控页面访问
http://虚拟机地址:4040
3.1.3 命令行工具
在解压缩文件夹下的data目录中,添加word.txt文件。在命令行工具中执行如下代码指令(和IDEA中代码简化版一致)
sc.textFile("data/word.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect
3.1.4 退出本地模式
按键Ctrl+C或输入Scala指令
:quit
3.1.5 提交应用
bin/spark-submit --class org.apache.spark.examples.SparkPi --master local[*] ./examples/jars/spark-examples_2.12-3.0.0.jar 10
1) --class表示要执行程序的主类
2) --master local[*] 部署模式,默认为本地模式,数字表示分配的虚拟CPU核数量
3) spark-examples_2.12-3.0.0.jar 运行的应用类所在的jar包
4) 数字10表示程序的入口参数,用于设定当前应用的任务数量
3.1.6 提交参数说明
在提交应用中,一般会同时提交一些参数
bin/spark-submit --class --master ... # other options [application-arguments]
你的赞,我都当成喜欢。
专注分享大数据技术&智能技术&基础&实战,干货,资料。
关注本号,让更多人了解技术,让技术造福更多人。欢迎转发传播,感谢您的关注,谢谢。