1.在查看Hadoop是是否正常启动时,使用jps命令,那么jps命令是什么含义呢?
jps(Java Virtual Machine Process Status Tool)是JDK 1.5提供的一个显示当前所有java进程pid的命令,简单实用,非常适合在linux/unix平台上简单察看当前java进程的一些简单情况。
所以说jps是java自带的命令,并不是Hadoop的命令,而是java查看当前所有java进程的命令。下图启动了一个java进程:
2.JobTracker,TaskTracker,DataNode,NameNode之间到底什么关系?
JobTracker作为主控进程,用于调度和管理其他的TaskTracker,JobTracker可以运行与集群中的任意一台计算机上,TaskTracker负责执行任务必须运行于DataNode上,也就是说DataNode既是数据存储节点,也是计算节点。这是为了降低通信开销。
3.证明:Map的输入采用Hadoop默认的输入方式:文件的一行作为value,行号作为key.
之前做过Selection运算,先将Map获取的值按行分割,再在每一行中查找符合条件的记录。那么如果命题成了,则不需要执行按行划分,仍可以得到正确结果。
尝试运行:
原始程序
新程序:
经检验,结果相同。
InputFormat()方法是用来成可供Map处理的<key,value>对的。
TextInputFormat是Hadoop的默认输入方法。TextOutputFormat是默认输出方法。