- 博客(11)
- 资源 (6)
- 收藏
- 关注
原创 hadoop划分为多个输出文件
现在我们见到的MapReduce作业的输出都是一组文件,那如果我想输出多组文件怎么办,比如说我想统计每个国家的专利情况,想以国家名作为文件名来输出。我们可以使用MultipleOutputFormat,它内部有一个方法generateFileNameForKeyValue,只要Override他,就可以根据自己的需要划分文件。他还有一些子类,像MultipleTextOutputFormat,Mul
2016-03-28 15:14:49 1231
原创 BloomFilter
BloomFilter是一个大数据处理的算法,它用来判断某个元素是否在集合中。它在空间和时间效率上很高,但是存在移动的误报率。如果返回false,说明元素肯定不在集合中,也就是说不会漏报;但如果返回true,怎可能存在错误。BloomFilter算法: 1)位数组: 假设Bloom Filter使用一个m比特的数组来保存信息,初始状态时,Bloom Filter是一个包含m位的位数组,每一
2016-03-26 15:43:14 464
原创 链接hadoop作业
有时候一个复杂的任务不能只用一个MapReduce作业完成,需要分解成多个子任务,每个子任务是一个单独的MapReduce作业。这个时候就需要将多个MapReduce作业连接起来让你真正明白什么是MapReduce组合式,迭代式,链式 多个mapreduce工作相互依赖处理方法完整实例(JobControl) Hadoop 依赖关系作业 MapReduce JobControl 错误纠正 1
2016-03-25 17:19:36 504
原创 Hadoop使用DATAJOIN软件包链接不同来源的数据
具体参见《Hadoop in action》 这里说一下几个问题:这几个问题在stackoverflow 得到了解决 (1)如何输入多个文件将多个文件放入一个文件夹,输入路径写文件夹的路径MultipleInputs.addInputPath(job, new Path(args[0]), TextInputFormat.class,MapClass.class);(2)TaggedWri
2016-03-24 22:26:48 453
原创 MapReduce实现TopK
Hadoop inaction上面的练习。刚开始考虑,每个分片应该是在所有的记录处理完之后,把这个分片的前K大输出给reduce,但是map函数是每个记录调用一遍,把怎么在所有记录调用完之后处理呢?setup(),此方法被MapReduce框架仅且执行一次,在执行Map任务前,进行相关变量或者资源的集中初始化工作。若是将资源初始化工作放在方法map()中,导致Mapper任务在解析每一
2016-03-23 21:58:26 3348
原创 Hadoop 使用combiner提升性能
combiner的工作是在mapper结束之后,在本机上先进行的reducer操作,这样可以减轻数据网络传输的负担,提高性能。比如wordcount程序,mapper输出的是< key,1>这样的简直对,表示每个单词出现了一次,然后进行reduce,在数据量非常大的情况下,非常多的相同key的输出,在传送过程中会造成很大负担,所以我们可以在map节点上先进行combiner,将key相同的这些加起来
2016-03-23 17:04:06 519
原创 Hadoop模板(新API)
跟原来的API稍有不同,其实也差不多import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.Text;i
2016-03-22 17:01:51 336
原创 Hadoop程序基础模板
输入文件格式为:X,Y,表示X引用Y; 本程序目的为将引用数据进行倒排,对于每一个专利找到引用他的那些专利import java.io.IOException;import java.util.Iterator;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import
2016-03-22 17:00:45 293
原创 第一个Hadoop程序WordCount
首先说一下在eclipse下搭建Hadoop开发环境准备工具:eclipse ,hadoop插件,注意版本要一致 eclipse可以去官网下载 插件我上传了一个,hadoop-eclipse-plugin-2.7.2.jar 将插件cp到eclipse/plugins下面Window -> Open Perspective -> Other 选择Map/Reduce在eclipse
2016-03-19 16:42:37 368
转载 Hadoop集群搭建
在这里先感谢下面几篇博客: 一步步教你Hadoop多节点集群安装配置 Linux下安装搭建Hadoop集群 SSH原理与运用 我的安装过程和其中遇到的问题都是参考上面的几篇博客,还有我上一篇博客中提到的 yarn详解 。 既然有上面详细的搭建过程,我这就不再详述了,简单的记录一下,以便自己以后用到。我实在虚拟机中搭建的,一个master,一个slave1(无奈太卡,后来又改成了伪分布模式)
2016-03-19 11:31:54 331
转载 yarn详解
最近搭建了hadoop集群,启动之后,发现只有NameNode,ResourceManager,SecondaryNameNode并没有JobTracker,所以发现了yarn,就可以解释了 下面内容转自:yarn详解 背景 Yarn是一个分布式的资源管理系统,用以提高分布式的集群环境下的资源利用率,这些资源包括内存、IO、网络、磁盘等。其产生的原因是为了解决原MapReduce框架的不足。最
2016-03-11 11:21:37 440
高效awk编程
2018-06-03
hadoop-eclipse-plugin-2.7.2.jar
2016-03-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人