- 博客(16)
- 资源 (5)
- 收藏
- 关注
原创 Hadoop MapReduce进阶 使用分布式缓存进行replicated join
概念:reduce-side join技术是灵活的,但是有时候它仍然会变得效率极低。由于join直到reduce()阶段才会开始,我们将会在网络中传递shuffle所有数据,而在大多数情况下,我们会在join阶段丢掉大多数传递的数据。因此我们期望能够在map阶段完成整个join操作。主要技术难点:在map阶段完成join的主要困难就是mapper可能需要与一个它自己不能获得的数据进行j
2011-12-19 15:22:31 7105
原创 Hadoop MapReduce进阶 使用DataJoin包实现Join
概念:Hadoop有一个叫DataJoin的包为Data Join提供相应的框架。它的Jar包存在于contrib/datajoin/hadoop-*-datajoin。为区别于其他的data join技术,我们称其为reduce-side join。(因为我们在reducer上作大多数的工作)reduce-side join引入了一些术语及概念: 1.Dat
2011-12-17 20:16:13 7568 15
翻译 Hadoop MapReduce进阶 使用Chain
情况:在进行高级的数据处理时,你会发现你的程序不能放在一个的MapReduce job之中了。Hadoop支持将多个MapReduce Job串成一条链来形成一个更大的MapReduce Job。同时你会发现Hadoop数据处理过程中通常包括多个数据源,我们将探索一些join技术同时处理多个数据源。1.将具有复杂依赖关系的多个MapReduce Job串联起来。情况:有三个Job,分别成为
2011-12-17 12:24:48 6540 3
原创 Hadoop MapReduce示例代码
《Hadoop in Action》第四章习题:0.MaxValue:要求输出cite75_99.txt中最大的CITED值:要点: 1.Mapper只输出它所处理的数据中的最大值。(重写cleanup()函数) 2.设置Reducer数目为一个 -D mapred.reduce.tasks=1,同时也只输出所处理的最大值。(重写cleanup()函数) 3.
2011-12-15 20:34:27 11115 5
翻译 Hadoop 使用Combiner提高Map/Reduce程序效率
众所周知,Hadoop框架使用Mapper将数据处理成一个键值对,再网络节点间对其进行整理(shuffle),然后使用Reducer处理数据并进行最终输出。 在上述过程中,我们看到至少两个性能瓶颈:如果我们有10亿个数据,Mapper会生成10亿个键值对在网络间进行传输,但如果我们只是对数据求最大值,那么很明显的Mapper只需要输出它所知道的最大值即可。这样做不仅可以减轻网
2011-12-15 10:39:19 21292 1
转载 Ubuntu右上角网络标志消失的解决方案
sudo service network-manager stopsudo rm /var/lib/NetworkManager/NetworkManager.statesudo service network-manager startsudo gedit /etc/NetworkManager/nm-system-settings.conf把false改成trues
2011-12-14 23:46:34 3360
翻译 基础MapReduce程序骨架
/*************************************************** * MapReduce Basic Template * Author: jokes000 * Date: 2011-12-14 * Version: 1.0.0 **************************************************/public
2011-12-14 16:04:11 2133
转载 数据结构与算法面试题80道
转自:http://hi.baidu.com/geogre_jsj/blog/item/e4b98fd2aab5aa3611df9b92.html由于这些题,实在太火了。所以,应广大网友建议要求,在此把之前已整理公布的前80题, 现在,一次性分享出来。此也算是前80题第一次集体亮相。 此些题,已有上万人,看到或见识到,若私自据为己有,必定为有知之
2011-12-14 15:11:10 145216 5
转载 在Eclipse下配置运行hadoop
转载自:http://hi.baidu.com/lingsuch/blog/item/c374fdecda19e82127979198.html非常感谢此文对我提供的帮助。自己乱搞,出了点问题,弄来弄去,总算弄OK了主要就是版本的问题我的开发环境是:Ubuntu,如果安装的版本低,系统更新下1.安装eclipse版本是eclips
2011-12-14 15:07:29 3286
转载 Ubuntu DNS配置与使用命令
经过长时间学习Ubuntu DNS,你可能会遇到Ubuntu DNS中网络问题,这里将介绍Ubuntu DNS解决网络问题的方法,新装了Ubuntu,虽然使用图形界面明明已经设置好了ip,网关等等,但是不能上网。一个朋友提醒说,也许是设置的问题,试试命令行的设置。于是搜索了一下怎么设置,结果还真的成功了。具体如下:1. 检验是否可以连通,就使用ping命令ping 网关开始的时候总是现
2011-12-14 14:53:25 1397
原创 ASP.NET GridView总结
ASP.NET中GridView具有十分强大的功能,这里例举一些功能,详情见资源内GridView资料。资源链接
2011-12-13 21:16:48 779
原创 Hadoop Map/Reduce 新API中自己的FileInputFormat写法
在看《Hadoop in Action》时发现代码使用的是旧的API,且部分API已经标记为Deprecated。所以自己尝试着写了一个使用新API的例子来完成该代码的功能。数据格式如下:"CITING","CITED"3858241,9562033858241,13242343858241,33984063858241,3557384...程序的目的是将所
2011-12-11 22:39:01 5424 1
转载 Hadoop MapReduce新旧API区别
新增的Java MapReduce APIHadoop的版本0.20.0包含有一个新的 Java MapReduce API,有时也称为"上下文对象"(context object),旨在使API在今后更容易扩展。新的API 在类型上不兼容先前的API,所以,需要重写以前的应用程序才能使新的API发挥作用。新增的API 和旧的API 之间,有下面几个明显的区别。新的API
2011-12-10 23:29:47 6798
翻译 Hadoop Map/Reduce OutputFormat概念
MapReduce使用OutputFormat类将数据输出存入文件中,其基本与InputFormat类似。输出没有分块,每个Reducer将它的输出直接写到自己的文件中。输出文件存在于一个共有目录当中,一般被命名为part-nnnnn,nnnnn是Reducer的分区ID。 Hadoop提供数种标准的OutputFormat的实现,如表中所示。几乎所有我们使用的类都继承自FileOu
2011-12-10 20:08:28 4028
翻译 Hadoop Map/Reduce InputFormat基础
有时候你可能想要用不同的方法从input data中读取数据。那么你就需要创建一个自己的InputFormat类。 InputFormat是一个只有两个函数的接口。public interface InputFormat { InputSplit[] getSplits(JobConf job, int numSplits) throws IOException;
2011-12-10 18:55:48 3704
翻译 Hadoop Map/Reduce Partitioner概念
在Hadoop Map/Reduce框架下,当Mapper处理好数据后,需要使用Partitioner确定怎样合理地将Mapper输出分配到Reducer之中。 默认的情况下,Hadoop对键值对中的key取hash值来确定怎样分配给相应的Reducer。Hadoop使用HashParitioner class来执行这一操作。但是有时候HashPartitioner并不能完成它的功能。
2011-12-10 15:07:24 4869
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人