公司最近业务用到了hadoop集群,为方便维护和迭代,选择了Python作为脚本语言,
下面说一下如何使用Python连接hadoop集群,hadoop集群中有namenode和datanode,我们需要连接namenode
我用的是Python3,和pyhdfs库(hdfs库也试过了,连不上,原因不明)
import pyhdfs
client = pyhdfs.HdfsClient(host,user_name)
# 获取目录下文件
client.listdir(hdfs_path)
# 新建目录
client.mkdirs(hdfs_path)
# 删除目录
client.delete(hdfs_path)
# 判断目录是否存在
client.exists(hdfs_path)
# 将本地文件上传至hadoop
client.copy_from_local(local_path,hdfs_path)
# 将hadoop文件down到本地
client.copy_to_local(hdfs_path,local_path)