2 HDFS
Hadoop 实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间。
HDFS的特点:
1. 通透性:让实际上是通过网络来访问文件的动作,由程序与用户看来。
2. 容错性:即使系统中有某些节点脱机,整体来说系统仍然可以持续运作,而不会有数据损失。
适用于一次写入多次查询的情况,不支持并发写情况,小文件不合适.
2.1 HDFS的Shell操作
2.1.1 启动HDFS
进入hadoop/sbin目录,./start-dfs.sh
使用jps命令检查是否启动成功
2.1.2 HDFS的常用命令
1. ls
如果是文件,则按照以下格式输出:
权限 副本数 用户ID 用户组ID 文件大小 修改时间 文件目录
如果是目录,则会按照以下格式输出:
权限 副本数(-) 用户ID 用户组ID 文件大小(0) 修改时间 文件目录
用法:hadoop fs -ls [-d] [-h] [-R] [<path> ...]
2. put
从本地文件系统中复制单个或多个源路径到目标文件系统。也支持从标准输入中读取输入写入目标文件系统。
用法:hadoop fs -put [-f] [-p] <localsrc> ... <dst>
3.copyFromLocal
除了限定源路径是一个本地文件外,和put命令相似。
用法:hadoop fs -copyFromLocal [-f] [-p] <localsrc> ... <dst>
4.cat
将路径指定文件的内容输出到stdout。
用法:hado