1 文档编写目的
随着Hadoop平台的普及和Python语言的流行,使用Python语言访问操作HDFS的需要,Python也提供了多个访问HDFS的依赖包(如:pyhdfs、HdfsCLI、pywhdfs),这些依赖包都是通过API的方式与HDFS进行交互。本篇文章Fayson主要介绍使用pywhdfs访问Kerberos环境下的HDFS。
- 内容概述:
1.环境准备
2.Python2示例代码
3.访问验证
4.总结
- 测试环境:
1.操作系统:Redhat7.4
2.CM和CDH版本为5.15.0
3.Python 2.7.15
2 环境准备
Python访问HDFS需要安装相应的依赖包,这里Fayson选择了pywhdfs依赖包,该依赖包支持如下特性:https://bitbucket.org/suty/pyhdfs
- 该库用于与WebHDFS和HTTPS Rest API交互
- 支持安全(Kerberos,Token)和不安全的集群访问
- 支持HA集群并兼容节点故障转移
- 支持json格式配置集群
- 支持在python shell上进行交互式访问HDFS
- 支持HDFS联邦
- 支持并发上传和下载
1.在命令行执行如下命令安装pywhdfs依赖
[root@cdh05 ~]# /opt/cloudera/anaconda2/bin/pip install pywhdfs
2.验证pywhdfs依赖包是否安装成功
[root@cdh05 ~]# /opt/cloudera/anaconda2/bin/pip show pywhdfs