1.Hadoop集群使用
一键启动大数据环境
/onekey/my-start-all.sh
一键关闭大数据环境
/onekey/my-stop-all.sh
查看启动进程
jps
查看HDFS界面
如:
查看NameNode页面地址:http://192.168.52.161:50070
查看YARN页面地址:http://192.168.52.161:8088
查看已经finished的mapreduce运行日志:http://192.168.52.161:19888
应用: 大多虚拟机内存分配有限,进行参数输入时应注意不要输入太大的参数
2.HDFS
简介:
HDFS采用Master/Slave架构
一个HDFS集群有两个重要的角色,分别是Namenode和Datanode。
HDFS的四个基本组件:HDFS Client、NameNode、DataNode和Secondary NameNo
机制:
HDFS被设计成能够在一个大集群中跨机器可靠地存储超大文件。它将每个文件存储成一系列的数据块,这个数据块
被称为block,除了最后一个,所有的数据块都是同样大小的。
hdfs默认文件:https://hadoop.apache.org/docs/r3.3.4/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml
为了容错,文件的所有block都会有副本。每个文件的数据块大小和副本系数都是可配置的。
hadoop 当中, 文件的 block 块大小默认是 128M(134217728字节)。
一些简单的Shell代码:
ls命令:
mkdir命令:
mv命令:
rm命令:
cp命令:
cat命令:
put命令:
get命令: