Hadoop的Streaming学习

原创 2012年03月28日 21:12:40

Haoop支持用其他语言来编程,需要用到名为Streaming的通用API。

Streaming主要用于编写简单,短小的MapReduce程序,可以通过脚本语言编程,开发更快捷,并充分利用非Java库。

HadoopStreaming使用Unix中的流与程序交互,从stdin输入数据,从stdout输出数据。实际上可以用任何命令作为mapper和reducer。数据流示意如下:

 cat [intput_file] | [mapper] | sort | [reducer] > [output_file]

使用如下命令:

 hadoop jar contrib/streaming/hadoop-streaming-0.20.203.0.jar  \

            >-input cite75_99.txt  \

           > -output output  \

           >-mapper 'cut -f 2 -d ,'  \

           >-reducer 'uniq'

第一行表示使用的StreamingAPI,位于图中位置得jar包中

-input-output参数用于设置输入输出文件或目录

-mapper-reducer通过引号中得参数进行设定,分别进行了截取第二列数据,

uniq进行了排序去重。

注意:每行是完全按照字母方式排序,因为Streaming完全采用文本方式处理数据,而不知道其他得数据类型。输出结果如下:

kqiao@ubuntu:~/hadoop-0.20.203.0$ hadoop fs -cat outputStreaming/part-00000 | head -10
"CITED"    
1    
10000    
100000    
1000006    
1000007    
1000011    
1000017    
1000026    
1000033

......  



Hadoop streaming详解

Hadoop streamingHadoop为MapReduce提供了不同的API,可以方便我们使用不同的编程语言来使用MapReduce框架,而不是只局限于Java。这里要介绍的就是Hadoop s...
  • u013613428
  • u013613428
  • 2017年03月14日 17:20
  • 3565

hadoop streaming参数配置

Streaming简介Streamining框架允许任何程序语言实现的程序在Hadoop MapReduce中使用,方便已有程序向Hadoop平台移植。因此可以说对于hadoop的扩展性意义重大。St...
  • loveblair1990
  • loveblair1990
  • 2016年12月13日 12:23
  • 1830

初次使用 Hadoop Streaming 的过程(遇到各种各样的问题)

写搜索引擎希望能尝试使用hadoop 来进行分布式查找结果,并顺便学学老早就想学的 hadoop。花了两个晚上的时间倒腾,总算跑出了第一个结果。。虽然很累,还是挺好的。下面陈列一下遇到的问题,希望对自...
  • Virtual_Func
  • Virtual_Func
  • 2015年11月19日 23:54
  • 500

Hadoop Streaming入门

说明:本文使用的Hadoop版本是2.6.0,示例语言用Python。 概述 Hadoop Streaming是Hadoop提供的一种编程工具,提供了一种非常灵活的编程接口, 允许用户使用...
  • liang0000zai
  • liang0000zai
  • 2016年01月20日 11:06
  • 3685

Hadoop-Streaming实战经验及问题解决方法总结

看到一篇不错的Hadoop-Streaming实战经验的文章,里面有大部分的情景都是自己实战中曾经遇到过的。特意转载过来,感谢有心人的总结。目录 Join操作分清join的类型很重要… 启动程序中ke...
  • bitcarmanlee
  • bitcarmanlee
  • 2016年07月11日 18:01
  • 1646

在Hadoop上调试HadoopStreaming程序的方法详解 by 道凡

点击查看原文 Hadoop提供若干种在调试HadoopStreaming的方法,供你使用,方便你快速定位问题。 让HadoopStreaming程序跑在开发机上。(推荐在开发时使用) ...
  • azhao_dn
  • azhao_dn
  • 2012年02月07日 10:14
  • 2465

Hadoop之wordcount(Java 原生和Hadoop Streaming)

MapReduce示例:WordCount(Java原生)      WordCount是hadoop最经典的一个词频统计方法,它很好的体现了MapReducede分合的思想,在集群中该方法的触发指...
  • hanlaipeng11
  • hanlaipeng11
  • 2017年06月11日 20:32
  • 170

Hadoop Streaming 做大数据处理详解

-------------------------------------------------------------------------- 以下内容摘自寒小阳老师大数据课程内容 ----...
  • Norsaa
  • Norsaa
  • 2017年08月23日 10:38
  • 204

通过hadoop streaming 输入两个文件或目录

通过Hadoop streaming写Mapreduce程序时,会遇到同时处理多个输入文件或者目录的的需求,那么如何在map程序中知道这一条内容到底来自哪个文件? 其实hadoop已经给留了解决方法:...
  • levy_cui
  • levy_cui
  • 2017年08月11日 14:52
  • 581

hadoop streaming -file -cacheFile -cacheArchive 区别

hadoop -file -cacheFile -cacheArchive
  • UserMawto
  • UserMawto
  • 2017年06月07日 16:18
  • 389
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Hadoop的Streaming学习
举报原因:
原因补充:

(最多只允许输入30个字)