一、hadoop集群下常用组件
HDFS:分布式文件系统,可以看做是一块超级大的硬盘
主:namenode,secondarynamenode
从:dataNode
yarn:分布式资源管理系统,用于管理集群内的资源(内存,cpu)
主:ResourceManager
从:Nodemanager
Map+reduce,分布式变成框架
zookeeper:分布式协调服务,用于维护集群配置的一致性、任务提交的事物性、集群中服务的地址管理、集群管理
Hbase:分布式列式存储数据库
hive:分布式数据库
sqoop:从传统数据库中往集群中导入数据的工具
Spark:基于内存的分布式计算框架
Pig——Pig是对MapReduce编程复杂性的抽象
Flume:是一个分布式的、具有可靠性和高可用性的服务,用于从单独的机器上将大量数据高效的收集、聚合并移动到HDFS中
二、集群中常用的shell命令
查看集群工作状态:hdfs dfsadmin -report
启动hdfs:start-dfs.sh
启动yarn:start-yarn.sh
查看hdfs根目录:hdfs dfs -ls /
根目录下创建文件夹:hdfs dfs -mkdir /folder
循环遍历所有的文件夹:hdfs dfs -ls -R /
上传文件:hdfs dfs -put aa.txt /folder
下载文件:hdfs dfs -get(copyToLocal) /folder/aa.txt ./newaa.txt
从hdfs的一个路径拷贝到另一个路径:hdfs dfs -cp /folder/aa.txt /newfolder
查看hdfs文件:hdfs dfs -cat /folder/aa.txt
权限相关命令
hdfs dfs -chgrp
hdfs dfs -chmod
hdfs dfs -chown
hdfs dfs -du 显示目录中所有文件的大小,或者当只指定一个文件时,显示此文件的大小
hdfs dfs -dus 显示文件的大小
hdfs dfs -expunge
hdfs dfs -tail path
hdfs dfs -text[ezd]
选项:
-e 检查文件是否存在。如果存在则返回0。
-z 检查文件是否是0字节。如果是则返回0。
-d 如果路径是个目录,则返回1,否则返回0。