Hadoop的Streaming学习

原创 2012年03月28日 21:12:40

Haoop支持用其他语言来编程,需要用到名为Streaming的通用API。

Streaming主要用于编写简单,短小的MapReduce程序,可以通过脚本语言编程,开发更快捷,并充分利用非Java库。

HadoopStreaming使用Unix中的流与程序交互,从stdin输入数据,从stdout输出数据。实际上可以用任何命令作为mapper和reducer。数据流示意如下:

 cat [intput_file] | [mapper] | sort | [reducer] > [output_file]

使用如下命令:

 hadoop jar contrib/streaming/hadoop-streaming-0.20.203.0.jar  \

            >-input cite75_99.txt  \

           > -output output  \

           >-mapper 'cut -f 2 -d ,'  \

           >-reducer 'uniq'

第一行表示使用的StreamingAPI,位于图中位置得jar包中

-input-output参数用于设置输入输出文件或目录

-mapper-reducer通过引号中得参数进行设定,分别进行了截取第二列数据,

uniq进行了排序去重。

注意:每行是完全按照字母方式排序,因为Streaming完全采用文本方式处理数据,而不知道其他得数据类型。输出结果如下:

kqiao@ubuntu:~/hadoop-0.20.203.0$ hadoop fs -cat outputStreaming/part-00000 | head -10
"CITED"    
1    
10000    
100000    
1000006    
1000007    
1000011    
1000017    
1000026    
1000033

......  



Hadoop streaming编程学习(1):统计电影打分

首先需要安装hadoop:http://www.jianshu.com/p/3064cc63d507,注意需要先安装jdk,还要在java和hadoop里面都要设置好相应的环境变量.安装好之后就可以利...

hadoop的Streaming学习(续)

3.用Streaming处理键值对 默认情况下,Streaming使用\t分离记录中得键和值,当没有\t时,整个记录被视为键,值为空白文本。 不同于AttributeMax.py为每个键寻找最大值...

关于Hadoop-Streaming学习中碰到的问题

Hadoop在分布式计算方面很强大,而Python在文本处理也是相当方便,那么有这两者的结合吗?有,答案就是Hadoop-Streaming。Hadoop-Streaming可以将Hadoop与主流语...

Hadoop-2.4.1学习之Streaming编程

本篇文章学习了如何编写hadoop streaming程序,重点讲述了工作原理及用到的各种参数...

Hadoop&&Streaming框架学习

1.Hadoop&Streaming简介         1.1 Hadoop简介                                                 Hadoop M...

【机器学习】使用Hadoop Streaming来用Python代码完成MapReduce

介绍了,Hadoop Streaming原理 ,map-reduce的重点,最后通过Hadoop Streaming来处理经典的词频统计的问题,并给出了map和reduce阶段的代码。...

【Python学习系列四】Python程序通过hadoop-streaming提交到Hadoop集群执行MapReduce

场景:将Python程序通过hadoop-streaming提交到Hadoop集群执行。 参考:http://www.michael-noll.com/tutorials/writing-an-ha...

【hadoop学习】在伪分布式hadoop上实践word count程序——c/c++ streaming版本(未完)

很久没有原创了,说明我很久没有学习了。无论是比较忙还是比较懒,无所谓了,继续学习hadoop中。 不是所有人都喜欢java,我就不喜欢,并且从前还挺反感java程序的——效率低,而且把内存细...

hadoop streaming 介绍文档

  • 2011年03月13日 00:39
  • 49KB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Hadoop的Streaming学习
举报原因:
原因补充:

(最多只允许输入30个字)