python访问hdfs的几种方式

本文介绍了Python访问HDFS的多种方式,包括hdfs库、snakebite库、pyhdfs库、libhdfs库和pyarrow库的使用,并详细说明了每个库的安装与访问特点。此外,还提到了通过调用shell命令访问HDFS的方法及其注意事项。
摘要由CSDN通过智能技术生成

一、python库

hdfs库

pip install hdfs

只可以使用hdfs的http端口(通常是50070),不支持rpc端口(9000或8020)

需要在启动hdfs节点的时候配置:

使用也很方便:

from hdfs import *
fs = InsecureClient(hdfs_url, root=hdfs_root, user=hdfs_proxy,timeout=hdfs_timeout)
fs_folders_list = fs.list(hdfs_root)

2.2.2的文档:https://media.readthedocs.org/pdf/hdfscli/latest/hdfscli.pdf

 

snakebite库

O’Reilly的书Hadoop with Python推荐的库,可以用rpc端口,但是只可以下载,(截止到20181225)没有上传的接口

使用:返回的是一个generator

from snakebite.client import Client
client = Client("localhost", 8020, use_trash=False)
for x in client.ls(['/']):
    print x

snakebite的github:https://github.com/spotify/sn

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值