- 在本地的pycharm上,运行代码时,需要增加以下改动点:
import os
os.environ["HADOOP_CONF_DIR"] = "/export/server/hadoop-3.3.1/etc/hadoop"
file_rdd = sc.textFile("hdfs://Master:9000/data/input/order.text")
conf.set("spark.submit.pyFiles", "rdd_calcu.py")
- 在linux服务器上运行代码时,通过 spark-submit 提交到集群中运行:
spark-submit --master yarn --py-files /export/spark_code/day01/rdd_calcu.py /export/spark_code/day01/rdd_operators_linux.py
- 提交到集群运行时,命令行参数:
查看当前节点cpu核数: cat /proc/cpuinfo | grep processor | wc -l
查看当前节点内存大小: free -h
--master yarn
--py-files
--executor-memory 2g
--executor-cores 1
--num-executors 6