2016年03月_u010660276

10月 09月 08月 03月 02月 01月

原创 hadoop划分为多个输出文件

现在我们见到的MapReduce作业的输出都是一组文件，那如果我想输出多组文件怎么办，比如说我想统计每个国家的专利情况，想以国家名作为文件名来输出。我们可以使用MultipleOutputFormat，它内部有一个方法generateFileNameForKeyValue，只要Override他，就可以根据自己的需要划分文件。他还有一些子类，像MultipleTextOutputFormat，Mul

2016-03-28 15:14:49 1231

原创 BloomFilter

BloomFilter是一个大数据处理的算法，它用来判断某个元素是否在集合中。它在空间和时间效率上很高，但是存在移动的误报率。如果返回false，说明元素肯定不在集合中，也就是说不会漏报；但如果返回true，怎可能存在错误。BloomFilter算法： 1）位数组：假设Bloom Filter使用一个m比特的数组来保存信息，初始状态时，Bloom Filter是一个包含m位的位数组，每一

2016-03-26 15:43:14 464

原创链接hadoop作业

有时候一个复杂的任务不能只用一个MapReduce作业完成，需要分解成多个子任务，每个子任务是一个单独的MapReduce作业。这个时候就需要将多个MapReduce作业连接起来让你真正明白什么是MapReduce组合式，迭代式，链式多个mapreduce工作相互依赖处理方法完整实例（JobControl） Hadoop 依赖关系作业 MapReduce JobControl 错误纠正 1

2016-03-25 17:19:36 504

原创 Hadoop使用DATAJOIN软件包链接不同来源的数据

具体参见《Hadoop in action》这里说一下几个问题：这几个问题在stackoverflow 得到了解决（1）如何输入多个文件将多个文件放入一个文件夹，输入路径写文件夹的路径MultipleInputs.addInputPath(job, new Path(args[0]), TextInputFormat.class,MapClass.class);（2）TaggedWri

2016-03-24 22:26:48 453

原创 MapReduce实现TopK

Hadoop inaction上面的练习。刚开始考虑，每个分片应该是在所有的记录处理完之后，把这个分片的前K大输出给reduce，但是map函数是每个记录调用一遍，把怎么在所有记录调用完之后处理呢？setup()，此方法被MapReduce框架仅且执行一次，在执行Map任务前，进行相关变量或者资源的集中初始化工作。若是将资源初始化工作放在方法map()中，导致Mapper任务在解析每一

2016-03-23 21:58:26 3348

原创 Hadoop 使用combiner提升性能

combiner的工作是在mapper结束之后，在本机上先进行的reducer操作，这样可以减轻数据网络传输的负担，提高性能。比如wordcount程序，mapper输出的是< key,1>这样的简直对，表示每个单词出现了一次，然后进行reduce，在数据量非常大的情况下，非常多的相同key的输出，在传送过程中会造成很大负担，所以我们可以在map节点上先进行combiner，将key相同的这些加起来

2016-03-23 17:04:06 519

原创 Hadoop模板（新API）

跟原来的API稍有不同，其实也差不多import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.Text;i

2016-03-22 17:01:51 336

原创 Hadoop程序基础模板

输入文件格式为：X,Y，表示X引用Y；本程序目的为将引用数据进行倒排，对于每一个专利找到引用他的那些专利import java.io.IOException;import java.util.Iterator;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import

2016-03-22 17:00:45 293

原创第一个Hadoop程序WordCount

首先说一下在eclipse下搭建Hadoop开发环境准备工具：eclipse ，hadoop插件，注意版本要一致 eclipse可以去官网下载插件我上传了一个，hadoop-eclipse-plugin-2.7.2.jar 将插件cp到eclipse/plugins下面Window -> Open Perspective -> Other 选择Map/Reduce在eclipse

2016-03-19 16:42:37 368

转载 Hadoop集群搭建

在这里先感谢下面几篇博客：一步步教你Hadoop多节点集群安装配置 Linux下安装搭建Hadoop集群 SSH原理与运用我的安装过程和其中遇到的问题都是参考上面的几篇博客，还有我上一篇博客中提到的 yarn详解。既然有上面详细的搭建过程，我这就不再详述了，简单的记录一下，以便自己以后用到。我实在虚拟机中搭建的，一个master，一个slave1（无奈太卡，后来又改成了伪分布模式）

2016-03-19 11:31:54 331

转载 yarn详解

最近搭建了hadoop集群，启动之后，发现只有NameNode，ResourceManager，SecondaryNameNode并没有JobTracker，所以发现了yarn，就可以解释了下面内容转自：yarn详解背景 Yarn是一个分布式的资源管理系统，用以提高分布式的集群环境下的资源利用率，这些资源包括内存、IO、网络、磁盘等。其产生的原因是为了解决原MapReduce框架的不足。最

2016-03-11 11:21:37 440

高效awk编程

awk是一个强大的文本分析工具，相对于grep的查找，sed的编辑，awk在其对数据分析并生成报告时，显得尤为强大。简单来说awk就是把文件逐行的读入，以空格为默认分隔符将每行切片，切开的部分再进行各种分析处理。 awk有3个不同版本: awk、nawk和gawk，未作特别说明，一般指gawk，gawk 是 AWK 的 GNU 版本。 awk其名称得自于它的创始人 Alfred Aho 、Peter Weinberger 和 Brian Kernighan 姓氏的首个字母。实际上 AWK 的确拥有自己的语言： AWK 程序设计语言，三位创建者已将它正式定义为“样式扫描和处理语言”。它允许您创建简短的程序，这些程序读取输入文件、为数据排序、处理数据、对输入执行计算以及生成报表，还有无数其他的功能。

2018-06-03

hadoop-eclipse-plugin-2.7.2.jar

2016-03-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人