文章大纲 1. python 与hdfs 交互 回写 1.1 使用hdfs 包 1.2 python2 与hdfs 1.3 在python中直接调用hadoop shell 命令去操作文件 1.3.1 hadoop shell 1.3.2 popen 1.3.3 subprocess 1.4 python 与 py4j 交互 2. pyspark 与driver 磁盘交互 3. python docker 搭建spark standalone 版本 补充 scala 方法 1. python 与hdfs 交互 回写 1.1 使用hdfs 包 api list:https://hdfscli.readthedocs.io/en/latest/api.html#api-reference 获取hdfs data 文件夹下面所有csv 文件 from hdfs.client import Client client = Client("http://IP:50070") # 50070: Hadoop默认namenode #返回目录下的文件 def