Hadoop支持非java预言来编写程序,这就会用到Streaming的通用API。

Hadoop Streaming使用流与程序进行交互。从STDIN输入数据,输出到STDOUT。数据必须为文本,而且每一行被视为一条记录。

 

用Streaming处理键-值

默认情况下,Streaming使用制表符分离记录中的键与值。当没有制表符时,整个记录被视为键,而值为空白文本。

Streaming API把reducer输出的每一行用制表符分开,并将键值对送入默认的TextOutputFormat中,即在结果被写入文件之前,默认的重新插入一个制表符。