自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 资源 (6)
  • 收藏
  • 关注

原创 hadoop划分为多个输出文件

现在我们见到的MapReduce作业的输出都是一组文件,那如果我想输出多组文件怎么办,比如说我想统计每个国家的专利情况,想以国家名作为文件名来输出。我们可以使用MultipleOutputFormat,它内部有一个方法generateFileNameForKeyValue,只要Override他,就可以根据自己的需要划分文件。他还有一些子类,像MultipleTextOutputFormat,Mul

2016-03-28 15:14:49 1231

原创 BloomFilter

BloomFilter是一个大数据处理的算法,它用来判断某个元素是否在集合中。它在空间和时间效率上很高,但是存在移动的误报率。如果返回false,说明元素肯定不在集合中,也就是说不会漏报;但如果返回true,怎可能存在错误。BloomFilter算法: 1)位数组: 假设Bloom Filter使用一个m比特的数组来保存信息,初始状态时,Bloom Filter是一个包含m位的位数组,每一

2016-03-26 15:43:14 464

原创 链接hadoop作业

有时候一个复杂的任务不能只用一个MapReduce作业完成,需要分解成多个子任务,每个子任务是一个单独的MapReduce作业。这个时候就需要将多个MapReduce作业连接起来让你真正明白什么是MapReduce组合式,迭代式,链式 多个mapreduce工作相互依赖处理方法完整实例(JobControl) Hadoop 依赖关系作业 MapReduce JobControl 错误纠正 1

2016-03-25 17:19:36 504

原创 Hadoop使用DATAJOIN软件包链接不同来源的数据

具体参见《Hadoop in action》 这里说一下几个问题:这几个问题在stackoverflow 得到了解决 (1)如何输入多个文件将多个文件放入一个文件夹,输入路径写文件夹的路径MultipleInputs.addInputPath(job, new Path(args[0]), TextInputFormat.class,MapClass.class);(2)TaggedWri

2016-03-24 22:26:48 453

原创 MapReduce实现TopK

Hadoop inaction上面的练习。刚开始考虑,每个分片应该是在所有的记录处理完之后,把这个分片的前K大输出给reduce,但是map函数是每个记录调用一遍,把怎么在所有记录调用完之后处理呢?setup(),此方法被MapReduce框架仅且执行一次,在执行Map任务前,进行相关变量或者资源的集中初始化工作。若是将资源初始化工作放在方法map()中,导致Mapper任务在解析每一

2016-03-23 21:58:26 3348

原创 Hadoop 使用combiner提升性能

combiner的工作是在mapper结束之后,在本机上先进行的reducer操作,这样可以减轻数据网络传输的负担,提高性能。比如wordcount程序,mapper输出的是< key,1>这样的简直对,表示每个单词出现了一次,然后进行reduce,在数据量非常大的情况下,非常多的相同key的输出,在传送过程中会造成很大负担,所以我们可以在map节点上先进行combiner,将key相同的这些加起来

2016-03-23 17:04:06 519

原创 Hadoop模板(新API)

跟原来的API稍有不同,其实也差不多import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.Text;i

2016-03-22 17:01:51 336

原创 Hadoop程序基础模板

输入文件格式为:X,Y,表示X引用Y; 本程序目的为将引用数据进行倒排,对于每一个专利找到引用他的那些专利import java.io.IOException;import java.util.Iterator;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import

2016-03-22 17:00:45 293

原创 第一个Hadoop程序WordCount

首先说一下在eclipse下搭建Hadoop开发环境准备工具:eclipse ,hadoop插件,注意版本要一致 eclipse可以去官网下载 插件我上传了一个,hadoop-eclipse-plugin-2.7.2.jar 将插件cp到eclipse/plugins下面Window -> Open Perspective -> Other 选择Map/Reduce在eclipse

2016-03-19 16:42:37 368

转载 Hadoop集群搭建

在这里先感谢下面几篇博客: 一步步教你Hadoop多节点集群安装配置 Linux下安装搭建Hadoop集群 SSH原理与运用 我的安装过程和其中遇到的问题都是参考上面的几篇博客,还有我上一篇博客中提到的 yarn详解 。 既然有上面详细的搭建过程,我这就不再详述了,简单的记录一下,以便自己以后用到。我实在虚拟机中搭建的,一个master,一个slave1(无奈太卡,后来又改成了伪分布模式)

2016-03-19 11:31:54 331

转载 yarn详解

最近搭建了hadoop集群,启动之后,发现只有NameNode,ResourceManager,SecondaryNameNode并没有JobTracker,所以发现了yarn,就可以解释了 下面内容转自:yarn详解 背景 Yarn是一个分布式的资源管理系统,用以提高分布式的集群环境下的资源利用率,这些资源包括内存、IO、网络、磁盘等。其产生的原因是为了解决原MapReduce框架的不足。最

2016-03-11 11:21:37 440

高效awk编程

awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。 awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk,gawk 是 AWK 的 GNU 版本。 awk其名称得自于它的创始人 Alfred Aho 、Peter Weinberger 和 Brian Kernighan 姓氏的首个字母。实际上 AWK 的确拥有自己的语言: AWK 程序设计语言 , 三位创建者已将它正式定义为“样式扫描和处理语言”。它允许您创建简短的程序,这些程序读取输入文件、为数据排序、处理数据、对输入执行计算以及生成报表,还有无数其他的功能。

2018-06-03

hadoop-eclipse-plugin-2.7.2.jar

2016-03-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除