第 3 章 Hadoop 集群和 YARN,虽然 Hadoop 也可以在单机上运行,但是这个平台的典型运行场景无疑是在多机的集群(Cluster)上。我们把运行着 Hadoop 平台的集群,就 Hadoop 平台的边界所及,称为“Hadoop 集群”。其中的每台机器都成为集群的一个“节点(node)”,节点之间连成一个局域网。这个局域网一般都是交换网,而不是路由网。这就是说,集群中只有交换机(switch),一般是二层交换机,也可能是三层交换机,但是没有普通的路由器,因为那些路由器引入的延迟太大了。不过这也不绝对,有时候可能确实需要将一个集群分处在不同网段中,而通过路由器相连,但是这并不影响 Hadoop 的运行(除性能降低之外)。就 Hadoop 而言,路由器与交换机在逻辑上是一样的。
第 4 章 Hadoop 的 RPC 机制,RPC 是“RemoteProcedureCall”即“远地过程调用”的缩写。这个机制的目的,是让一台机器上的程序能像调用本地的“过程”那样来调用别的机器上的某些过程。这里所谓“过程”,在传统的 C 程序设计中统称为“函数”,在 Pascal 程序设计中既可以是 PROCEDURE 也可以是 FUNCTION,在 Java 等 OO 程序设计语言中就是 “方 法 (method)”。所 以,Java 传 统 的 RPC 机制称为 RMI,即“远地方法启用(RemoteMethodInvocation)”。
第 5 章 Hadoop 作业的提交,在计算机上启动运行一个应用,首先要把这个应用作为“作业(Jo