python 操作CDH的HDFS

环境:安装了pyenv,pip
pyenv global 3.6.8

pip install hdfs
pip install ipython  (个人喜欢使用pyenv的自动补全功能)
安装完hdfs后建议重启,测试过程出现了hdfs模块找不到的情况
注意:客户端分为Client和InsecureClient,Client需要验证权限

In [1]: from hdfs import InsecureClient                                                                                                                                
In [2]: client_hdfs = InsecureClient('http://192.168.4.86:9870',user='hdfs')                                                                                           
In [3]: client_hdfs.list('/')                                                                                                                                          
Out[3]: ['dongsc', 'hbase', 'tmp', 'user']
In [4]: client_hdfs.makedirs('/dongsc2')  
In [6]: client_hdfs.delete('/dongsc',recursive='true')       --recursive:是否允许递归删除                                                                                                         
Out[6]: True


假如想使用Client添加对权限的认证,需要修改授权,将root用户添加进ACLs中
Client模块下,尽管当前用户是root,但是hadoop 里的hdfs是另外一套文件系统了,root在里面是没有权限的。
上传文件时需要注意:
客户端(运行python的机器)必须要有NameNode和DataNode的解析,可以是DNS,也可以是/etc/hosts,否则会出现:

。。。。。。。。。。。。。。。省略,下面是报错的最后一句。。。。
/usr/local/lib/python3.6/site-packages/urllib3/connection.py in _new_conn(self)
    167         except SocketError as e:
    168             raise NewConnectionError(
--> 169                 self, "Failed to establish a new connection: %s" % e)
    170 
    171         return conn
NewConnectionError: <urllib3.connection.HTTPConnection object at 0x7f734ac449e8>: Failed to establish a new connection: [Errno -2] Name or service not known

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值