MapReduce编程
搜索与推荐Wiki
这个作者很懒,什么都没留下…
展开
-
社区划分-PageRank算法MapReduce实现
PageRank算法的分析和Python实现参考:http://blog.csdn.net/gamer_gyt/article/details/47443877举例来讲:假设每个网页都有一个自己的默认PR值,相当于人为添加给它是一种属性,用来标识网页的等级或者重要性,从而依据此标识达到排名目的。假设有ID号是1的一个网页,PR值是10,假如它产生了到ID=3,ID=6,ID=8 ,ID=9...原创 2015-08-12 21:01:16 · 5037 阅读 · 0 评论 -
搜索引擎:MapReduce实战----倒排索引
1.倒排索引简介倒排索引(Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。有两种不同的反向索引形式:一条记录的水平反向索引(或者反向档案索引)包含每个引用单词的文档的列表。 一个单词的水平反向索引(或者完全反向索引)又包含每个单词在一个文...原创 2015-07-28 10:23:59 · 4781 阅读 · 1 评论 -
MapReduce InputFormat之FileInputFormat
一:简单认识InputFormat类InputFormat主要用于描述输入数据的格式,提供了以下两个功能: 1)、数据切分,按照某个策略将输入数据且分成若干个split,以便确定Map Task的个数即Mapper的个数,在MapReduce框架中,一个split就意味着需要一个Map Task; 2)为Mapper提供输入数据,即给定一个spli...原创 2015-11-30 09:19:00 · 2401 阅读 · 0 评论 -
MapReduce设计模式学习
一:概要模式1:简介概要设计模式更接近简单的MR应用,因为基于键将数据分组是MR范型的核心功能,所有的键将被分组汇入reducer中本章涉及的概要模式有数值概要(numerical summarization),倒排索引(inverted index),计数器计数(counting with counter)2:概要设计模式包含 2.1:关于Comb...原创 2016-03-12 19:15:42 · 4989 阅读 · 0 评论 -
MapReduce 二次排序详解
1 首先说一下工作原理:在map阶段,使用job.setInputFormatClass定义的InputFormat将输入的数据集分割成小数据块splites,同时InputFormat提供一个RecordReder的实现。本例子中使用的是TextInputFormat,他提供的RecordReder会将文本的一行的行号作为key,这一行的文本作为value。这就是自定义Map的输入是<L...原创 2015-08-06 13:31:29 · 3192 阅读 · 0 评论 -
Mapeduce编程八大步骤
Mapreduce编程八大步1.1:指定读取的文件位于哪里FileInputFormat.setInputPaths()指定如何对输入文件进行格式化,把输入文本每一行解析为键值对job.setInputFormatClass()1.2:指定自定义的Map类job.setMapperClass()//map输出的<k,v>类型,如果<k3,v3>的类型与<...原创 2015-11-24 16:54:37 · 2682 阅读 · 0 评论 -
MapReduce框架排序和分组
前言: Mapreduce框架就是map->reduce,其中Map中的<key,value>是偏移量和行值,在其之前会使用job.setInputFormatClass定义的InputFormat将输入的数据集分割成小数据块splites,同时InputFormat提供一个RecordReder的实现。本例子中使用的是TextInputFormat,他提供的R...原创 2015-08-07 15:48:45 · 2590 阅读 · 0 评论 -
MapReduce 按照Value值进行排序输出
文件输入:A 1B 5C 4E 1D 3W 9P 7Q 2文件输出:W 9P 7B 5C 4D 3Q 2E 1A 1代码如下:package comparator;import java.io.IOException;import org.a...原创 2015-08-27 12:24:54 · 12255 阅读 · 4 评论 -
MapReduce InputFormat——DBInputFormat
一、背景 为了方便MapReduce直接访问关系型数据库(Mysql,Oracle),Hadoop提供了DBInputFormat和DBOutputFormat两个类。通过DBInputFormat类把数据库表数据读入到HDFS,根据DBOutputFormat类把MapReduce产生的结果集导入到数据库表中。二、技术细节1、DBInputFormat(Mys...原创 2015-11-30 10:38:01 · 2655 阅读 · 0 评论 -
利用采样器实现mapreduce任务输出全排序
采样器是hadoop内自带的一个可以对目标文件部分数据进行提取的工具类,以方便我们对这些采样的数据做一些参考或者处理。hadoop提供了多种采样器供我们使用,以满足不同的需求。另外,采样器不同于普通mapreduce操作。它是直接在客户端机器上运行的。常见采样器IntervalSampler 以一定的间隔定期从划分中选择key,对有排序的数据来说更好RandomSame转载 2016-06-26 11:50:43 · 3165 阅读 · 0 评论 -
MapReduce框架Mapper和Reducer类源码分析
一:Mapper类在Hadoop的mapper类中,有4个主要的函数,分别是:setup,cleanup,map,run。代码如下:protected void setup(Context context) throws IOException, InterruptedException {// NOTHING}protected void map(KEYIN key, VA...原创 2015-08-07 13:45:16 · 3321 阅读 · 0 评论 -
MapReduce编程实例之数据去重
任务描述:让原始数据中出现次数超过一次的数据在输出文件中只出现一次。example data:2015-3-1 a2015-3-2 b2015-3-3 c2015-3-4 d2015-3-5 e2015-3-6 f2015-3-7 g2015-3-1 a2015-3-2 b2015-3-3 c2015-3-4 d2015-3-5 e2015-3-6 f2015...原创 2015-11-24 16:42:57 · 3024 阅读 · 0 评论 -
Exception from container-launch: org.apache.hadoop.util.Shell$ExitCodeException
使用MapReduce编写的中文分词程序出现了Exception from container-launch: org.apache.hadoop.util.Shell$ExitCodeException: 这样的问题如图:上网查了好多资料,才明白这是hadoop本身的问题,具体参考:https://issues.apache.org/jira/browse/YARN-1298h...原创 2015-08-01 11:51:44 · 3644 阅读 · 0 评论 -
Ubuntu系统下eclipse配置mapreduce插件常见错误和解决办法汇总
在上篇文章中eclipse已经能访问HDFS目录( blog.csdn.net/gamer_gyt/article/details/47209623),但并不能进行Mapreduce编程,在这里小编将常见错误和处理办法进行总结,希望对大家有所帮助错误1:ERROR [main] util.Shell (Shell.java:getWinUtilsPath(303)) - Failed to l...原创 2015-08-03 15:34:40 · 3948 阅读 · 0 评论 -
windows下使用Eclipse编译运行MapReduce程序 Hadoop2.6.0/Ubuntu
一、环境介绍宿主机:windows8虚拟机:Ubuntu14.04hadoop2.6伪分布:搭建教程http://blog.csdn.net/gamer_gyt/article/details/46793731Eclipse:eclipse-jee-luna-SR2-win32-x86_64二、准备阶段网上下载hadoop-eclipse-plugin-2.6.0.jar ...原创 2015-08-02 19:07:06 · 3446 阅读 · 0 评论 -
MapReducer中的多次归约处理
我们知道,MapReduce是分为Mapper任务和Reducer任务,Mapper任务的输出,通过网络传输到Reducer任务端,作为输入。在Reducer任务中,通常做的事情是对数据进行归约处理。既然数据来源是Mapper任务的输出,那么是否可以在Mapper端对数据进行归约处理,业务逻辑与Reducer端做的完全相同。处理后的数据再传送到Reducer端,再做一次归约。这样的好处是减少了...原创 2015-07-28 09:06:41 · 3055 阅读 · 0 评论 -
MapReduce框架Partitioner分区方法
前言:对于二次排序相信大家也是似懂非懂,我也是一样,对其中的很多方法都不理解诶,所有只有暂时放在一边,当你接触到其他的函数,你知道的越多时你对二次排序的理解也就更深入了,同时建议大家对wordcount的流程好好分析一下,要真正的知道每一步都是干什么的。1.Partitioner分区类的作用是什么?2.getPartition()三个参数分别是什么?3.numReduceTasks指的是设置的...原创 2015-08-07 15:20:18 · 9919 阅读 · 0 评论 -
MapReduce编程实践之自定义数据类型
一:任务描述自定义数据类型完成手机流量的分析二:example data格式为:记录报告时间戳、手机号码、AP mac、AC mac、访问的网址、网址种类、上行数据包数、下行数据包数、上行总流量、下行总流量、HTTP Response的状态。136315798506613726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82i02.c...原创 2015-11-24 18:51:50 · 3228 阅读 · 0 评论 -
MapReduce编程实例之自定义排序
任务描述:给出一组数据,自定义排序的样式,第一列降序,相同时第二列升序example Data:2013 12013 52014 52014 82015 92015 4Code:package mrTest;import java.io.DataInput;import java.io.DataOutput;import java.io.IOExcep...原创 2015-11-25 23:30:59 · 2656 阅读 · 0 评论 -
MapReduce编程实例之自定义分区
任务描述:一组数据,按照年份的不同将其分别存放在不同的文件里example Data:2013 12013 52014 52014 82015 92015 4Code:package mrTest;import java.io.IOException;import java.util.StringTokenizer;import org.apache...原创 2015-11-25 21:54:03 · 4457 阅读 · 0 评论 -
MapReduce编程实例之倒排索引
任务描述:有一批电话清单,记录了用户A拨打给用户B的记录做一个倒排索引,记录拨打给用户B所有的用户A、example data:13614004876 11018940084808 1008613342445911 1000113614004876 12018940084808 100861113342445911 11015847985621 10000code...原创 2015-11-24 15:59:40 · 3258 阅读 · 0 评论 -
eclipse 运行MapReduce程序错误异常汇总(解决Map not fount)
错误一:Error: java.lang.RuntimeException: java.lang.ClassNotFoundException: Class wordCount.wordCount$Map not foundat org.apache.hadoop.conf.Configuration.getClass(Configuration.java:2074)at org.apac...原创 2015-08-24 12:47:21 · 6801 阅读 · 1 评论