=>common
=>HDFS
存储数据
NameNode:存储文件系统的元数据,命名空间namesapce
DataNode:存储数据
SecondaryNameNode:输助NameNode工作,合并两个文件(定时周期性的合并)
=>YARN:Hadoop的操作系统,Data操作系统
Container:隔离资源
ResourceManager:整个集群资源的管理与调度
NodeManager:管理每个节点的资源与调度
=>MapReduce:分而治之
map:分
reduce:合并
input -map- shuffle(排序) -reudce - output
分布式并行的框架:
=>运行模型
本地模式
yarn模式
--==========================Hadoop2.x配置文件补充=====================
--=+++++++++++++++yarn日志聚集功能++++++++++++++++++++++++++
--Log Aggregation:应用运行完成后,将日志信息上传到HDFS系统上
=>yarn-site.xml
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>640800</value>
</property>
--=+++++++++++++++++++Hadoop配置文件=++++++++++++++++++++++
=》默认配置文件:/share/hadoop/中对应project文件夹中的jar文件中
可以作为参考来配置自定义配置文件
* core-default.xml
* hdfs-default.xml
* yarn-default.xml
* mapred-default.xml
=》自定义配置文件:/etc/hadoop/
* core-site.xml
* hdfs-site.xml
* yarn-site.xml
* mapred-site.xml
=》自定义配置文件的优先级>默认配置文件的优先级,
即自定义配置项的值会替换相关默认配置项