Map输出的结果将会被序列化到缓冲区中,元数据将被存储在缓冲区中;当Map持续有输出结果时,序列化的缓冲区或者元数据超出了临界值,此时缓冲区中的数据将被排序并写入到磁盘中
1. Hadoop集群的配置安装(非安全模式)
1.重要的配置文件:
(1)Read-only default configuration:
core-default.xml
hdfs-default.xml
yarn-default.xml
mapred-default.xml
(2)Site-specific configuration:
etc/hadoop/core-site.xml
etc/hadoop/hdfs-site.xml
etc/hadoop/yarn-site.xml
etc/hadoop/mapred-site.xml
(3)Hadoop Daemon Configuration:
HDFS daemons:
NameNode
SecondaryNameNode
DataNode
YARN damones:
ResourceManager
NodeManager
WebAppProxy
2. 配置Hadoop Daemons的环境变量
3.Hadoop Daemon配置
4.HDFS相关操作
hadoop fs
- appendToFile
- cat
- chgrp chmod chown
- copyFromLo