前三节课主要讲了hdfs,hdfs就是一个分鱼展的大硬盘
分:分块
鱼:冗余
展:动态扩展
接下来讲云计算,也可以理解为分布式计算,其设计原则:
移动计算,而不是移动数据
前面说过,hadoop由hdfs,yarn,map/reduce组成,
而yarn(Yet Another Resource Negotiator)是资源调度系统,yarn调配的是内存和cpu,不参入计算。
map/reduce是计算引擎。
(1)配置yarn
yarn由一台resourceManager和n台dataManager组成,resourceManager管理着n台dataManager,
resourceManager原则上应该和namenode分开,单独在一个节点上,现在是在做实验,为了演示方便,
才放在一起的,而dataManager可以和datanode放在一起,这样dataManager和数据离的近一点,
当然也可以不放在一起。
要启动yarn系统,需要先配置一些参数:
a)配置yarn-site.xml
resourceManager和dataManager每一个节点都需要配置yarn-site.xml,配置如下:
<?xml version="1.0"?>
<configuration>
<property>