文章目录
Hadoop简介
一 Hadoop
当我们说起Hadoop 的时候,不仅仅是说他自己,还有好多个东西:
- Hadoop组成
最底层HDFS:块级的分布式文件存储系统,负责存储文件
上面有一个YARN:负责资源调度
在上面有一个MapReduce: 负责运行任务,负责计算
- Hadoop生态圈
HDFS
块级的分布式文件存储系统,负责存储文件.那什么是块级别呢?比如有一个文件大小是200Mb,hadoop一个块大小默认128mb,这个时候要存储这200mb的文件就必须分成两个块,这两个块存储在不同的位置,一个块存在一个节点上,另一个块存储在另一个节点上,128+72,另外这72mb为了避免其他东西的占用,他也会占用128mb的空间, 换句话说,这个块已经被他占用了,其他块再也存储不进来了.如果文件只有1k,那么他也会占用有个块的大小.
128Mb是一个小格子,无论多小,他都会占用一个小格子,实际大小还是他实际的大小…
另外块大小是可以更改的,一般不会更改.
HDFS是一个文件系统,他也有自己的组成:
- NameNode(nn): **(相当于目录)**存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表和块所在的DataNode 等.
- DataNode(dn)😗*(数据内容)**在本地文件系统存储文件块数据以及块数据的校验和.
- Secondary NameNode(2nn)😗*(一个辅助功能)**用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照.
MapReduce 分布式计算框架
Yarn 分布式资源管理器
这个resourcemanageer就是yarn的进程
Hadoop的shell操作
启动 关闭Hadoop集群
在主节点上:
开启: start-all.sh
关闭: stop-all.sh
关闭一定要正确的关闭,不可以直接关闭虚拟机
这个命令在哪个目录都可以执行,不一定在主节点上
查看HDFS上的文件目录
方法一:使用浏览器可以看,在主机浏览器上输入 192.168.5.100:50070 192.168.5.100:8088(是自己的IP地址,不要照抄)
方法二:在命令行里查看
hadoop fs -ls -R /
在HDFS上创建文件夹
hadoop fs -mkdir -p /test/kkb
-p就是你不存在这个目录就给你创建一个
上传文件
hadoop fs -put source(本地文件路径) dest(HDFS路径)
hadoop fs -put ./word.txt /test
下载文件
hadoop fs -get source(HDFS路径) dest(本地文件路径)
删除文件
hadoop fs -rm HDFS文件路径 hadoop fs -rm -r HDFS目录路径
查看文件内容
hadoop fs -cat HDFS文件路径
hadoop fs -cat /output/part-r-00000
查看集群的资源占用情况
hdfs dfsadmin -report