文章目录简介及安装
具体使用
(一)简介及安装
Linux及Windows下hadoop配置流程可参考:avenger:Hadoop3.x配置流程(Linux)zhuanlan.zhihu.comavenger:Hadoop3.x配置流程(Windows)zhuanlan.zhihu.com
HDFS全称Hadoop Distributed File System,即分布式文件管理系统。
HDFS有三个组成部分,NameNode, DataNode 和 Secondary NameNode。简单来说,NameNode相当于文件目录,DataNode为文件内容,而Secondary NameNode则起到辅助NameNode的作用。
本文使用python的hdfs库操作HDFS。
安装hdfs库:
pip install hdfs
(二)具体使用连接hadoop
from hdfs import InsecureClient
client = InsecureClient("hadoop连接地址", user="用户名") # 指定远程地址及用户名
print(