1.HDFS的架构
Client为客户端,NameNode为主管、管理者,DataNode执行实际的操作,Secondary NameNode 辅助 NameNode,在紧急情况下,可辅助恢复NameNode。
2.HDFS的Shell命令
Hadoop提供了文件系统的shell命令使用格式为 hadoop fs <args> 或 hdfs dfs <args>。
对HDFS的操作命令类似于Linux的shell对文件的操作,如ls、mkdir、rm等。
ls
格式:hadoop fs -ls URI
eg:
hadoop fs -ls / #显示文件列表
hadoop fs –ls -R / #递归显示文件列表
mkdir
格式 : hadoop fs –mkdir [-p] <paths>
eg:
hadoop fs -mkdir /dir1 #在 HDFS 的根目录下创建新目录dir1
hadoop fs -mkdir -p /aaa/bbb/ccc #在 HDFS 上递归地创建目录结构
/aaa/bbb/ccc
mv
格式:hadoop fs -mv <src> <dst>
eg:
hadoop fs -mv /dir1/1.txt /dir2 #将hdfs上的1.txt从dir1移动到dir2
rm
eg:
hadoop fs -rm /initial-setup-ks.cfg #删除文件
hadoop fs -rm -r /dir2 #删除目录
cp
eg:
hadoop fs -cp /dir1/1.txt /dir2 #将dir1中的1.txt拷贝到dir2中
cat
eg:
hadoop fs -cat /dir1/1.txt #将 1.txt文件的内容读取出来,并在运行命令的终端或命令行界面上显示这些内容
等等......
3.Apache Hive
Apache Hive是一个分布式容错数据仓库系统,它提供了对大规模数据的分析和处理能力。Hive的核心功能包括但不限于以下几个方面:数据仓库存储,SQL查询能力,批处理操作,数据模型,高级应用与操作。Hive架构参照下图