自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 资源 (5)
  • 收藏
  • 关注

原创 Hadoop MapReduce进阶 使用分布式缓存进行replicated join

概念:reduce-side join技术是灵活的,但是有时候它仍然会变得效率极低。由于join直到reduce()阶段才会开始,我们将会在网络中传递shuffle所有数据,而在大多数情况下,我们会在join阶段丢掉大多数传递的数据。因此我们期望能够在map阶段完成整个join操作。主要技术难点:在map阶段完成join的主要困难就是mapper可能需要与一个它自己不能获得的数据进行j

2011-12-19 15:22:31 7068

原创 Hadoop MapReduce进阶 使用DataJoin包实现Join

概念:Hadoop有一个叫DataJoin的包为Data Join提供相应的框架。它的Jar包存在于contrib/datajoin/hadoop-*-datajoin。为区别于其他的data join技术,我们称其为reduce-side join。(因为我们在reducer上作大多数的工作)reduce-side join引入了一些术语及概念:            1.Dat

2011-12-17 20:16:13 7533 15

翻译 Hadoop MapReduce进阶 使用Chain

情况:在进行高级的数据处理时,你会发现你的程序不能放在一个的MapReduce job之中了。Hadoop支持将多个MapReduce Job串成一条链来形成一个更大的MapReduce Job。同时你会发现Hadoop数据处理过程中通常包括多个数据源,我们将探索一些join技术同时处理多个数据源。1.将具有复杂依赖关系的多个MapReduce Job串联起来。情况:有三个Job,分别成为

2011-12-17 12:24:48 6525 3

原创 Hadoop MapReduce示例代码

《Hadoop in Action》第四章习题:0.MaxValue:要求输出cite75_99.txt中最大的CITED值:要点:    1.Mapper只输出它所处理的数据中的最大值。(重写cleanup()函数)    2.设置Reducer数目为一个 -D mapred.reduce.tasks=1,同时也只输出所处理的最大值。(重写cleanup()函数)    3.

2011-12-15 20:34:27 11068 5

翻译 Hadoop 使用Combiner提高Map/Reduce程序效率

众所周知,Hadoop框架使用Mapper将数据处理成一个键值对,再网络节点间对其进行整理(shuffle),然后使用Reducer处理数据并进行最终输出。    在上述过程中,我们看到至少两个性能瓶颈:如果我们有10亿个数据,Mapper会生成10亿个键值对在网络间进行传输,但如果我们只是对数据求最大值,那么很明显的Mapper只需要输出它所知道的最大值即可。这样做不仅可以减轻网

2011-12-15 10:39:19 21250 1

转载 Ubuntu右上角网络标志消失的解决方案

sudo service network-manager stopsudo rm /var/lib/NetworkManager/NetworkManager.statesudo service network-manager startsudo gedit /etc/NetworkManager/nm-system-settings.conf把false改成trues

2011-12-14 23:46:34 3327

翻译 基础MapReduce程序骨架

/*************************************************** * MapReduce Basic Template * Author: jokes000 * Date: 2011-12-14 * Version: 1.0.0 **************************************************/public

2011-12-14 16:04:11 2117

转载 数据结构与算法面试题80道

转自:http://hi.baidu.com/geogre_jsj/blog/item/e4b98fd2aab5aa3611df9b92.html由于这些题,实在太火了。所以,应广大网友建议要求,在此把之前已整理公布的前80题, 现在,一次性分享出来。此也算是前80题第一次集体亮相。 此些题,已有上万人,看到或见识到,若私自据为己有,必定为有知之

2011-12-14 15:11:10 144950 5

转载 在Eclipse下配置运行hadoop

转载自:http://hi.baidu.com/lingsuch/blog/item/c374fdecda19e82127979198.html非常感谢此文对我提供的帮助。自己乱搞,出了点问题,弄来弄去,总算弄OK了主要就是版本的问题我的开发环境是:Ubuntu,如果安装的版本低,系统更新下1.安装eclipse版本是eclips

2011-12-14 15:07:29 3268

转载 Ubuntu DNS配置与使用命令

经过长时间学习Ubuntu DNS,你可能会遇到Ubuntu DNS中网络问题,这里将介绍Ubuntu DNS解决网络问题的方法,新装了Ubuntu,虽然使用图形界面明明已经设置好了ip,网关等等,但是不能上网。一个朋友提醒说,也许是设置的问题,试试命令行的设置。于是搜索了一下怎么设置,结果还真的成功了。具体如下:1. 检验是否可以连通,就使用ping命令ping 网关开始的时候总是现

2011-12-14 14:53:25 1382

原创 ASP.NET GridView总结

ASP.NET中GridView具有十分强大的功能,这里例举一些功能,详情见资源内GridView资料。资源链接

2011-12-13 21:16:48 768

原创 Hadoop Map/Reduce 新API中自己的FileInputFormat写法

在看《Hadoop in Action》时发现代码使用的是旧的API,且部分API已经标记为Deprecated。所以自己尝试着写了一个使用新API的例子来完成该代码的功能。数据格式如下:"CITING","CITED"3858241,9562033858241,13242343858241,33984063858241,3557384...程序的目的是将所

2011-12-11 22:39:01 5393 1

转载 Hadoop MapReduce新旧API区别

新增的Java MapReduce APIHadoop的版本0.20.0包含有一个新的 Java MapReduce API,有时也称为"上下文对象"(context object),旨在使API在今后更容易扩展。新的API 在类型上不兼容先前的API,所以,需要重写以前的应用程序才能使新的API发挥作用。新增的API 和旧的API 之间,有下面几个明显的区别。新的API

2011-12-10 23:29:47 6763

翻译 Hadoop Map/Reduce OutputFormat概念

MapReduce使用OutputFormat类将数据输出存入文件中,其基本与InputFormat类似。输出没有分块,每个Reducer将它的输出直接写到自己的文件中。输出文件存在于一个共有目录当中,一般被命名为part-nnnnn,nnnnn是Reducer的分区ID。  Hadoop提供数种标准的OutputFormat的实现,如表中所示。几乎所有我们使用的类都继承自FileOu

2011-12-10 20:08:28 4016

翻译 Hadoop Map/Reduce InputFormat基础

有时候你可能想要用不同的方法从input data中读取数据。那么你就需要创建一个自己的InputFormat类。    InputFormat是一个只有两个函数的接口。public interface InputFormat { InputSplit[] getSplits(JobConf job, int numSplits) throws IOException;

2011-12-10 18:55:48 3692

翻译 Hadoop Map/Reduce Partitioner概念

在Hadoop Map/Reduce框架下,当Mapper处理好数据后,需要使用Partitioner确定怎样合理地将Mapper输出分配到Reducer之中。    默认的情况下,Hadoop对键值对中的key取hash值来确定怎样分配给相应的Reducer。Hadoop使用HashParitioner class来执行这一操作。但是有时候HashPartitioner并不能完成它的功能。

2011-12-10 15:07:24 4854

关系代数解释器

关系代数解释器,模拟关系代数。 内有解释器使用教程,对于关系代数理解十分有益。

2012-04-30

软件设计师真题2004~2010

软件设计师真题。。 200405~ 201011

2012-01-09

GridView资料

ASP.NET GridView相关资料,有示例代码,有详细文档。

2011-12-13

Hadoop环境搭建手册(包含所有基本信息,本人亲测)

Hadoop环境搭建手册(包含所有基本信息,本人亲测)

2011-12-11

ACM Library

ACM library ACM模板库 欢迎大家下载。。

2011-09-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除