一、读写hdfs上文件
读取hdfs某目录下的json文件:
json_dir=‘hdfs:////.json’
spark.read.format(‘json’).option(‘header’,‘true’).option(‘inferSchema’,‘true’).load(json_dir)
写入hdfs:
df.rdd.saveAsTextFile(“hdfs://”) 最后一级需要是目录
二、执行方式
1 pyspark 命令行启动执行 本地模式
2 spark-submit yarn模式
spark-submit --py-files hdfs:/XX/XX.zip /XX/main.py --master yarn --deploy-mode cluster
3 pyspark --jars file1.jar,file2.jar pysaprk添加多个脚本
三、Caused by: org.apache.spark.memory.SparkOutOfMemoryError: Unable to acquire 65536 bytes of memory, got 0
异常,
df.coalesce(5).saveAsTextFile(s"xxx")
去掉coalesce