2011年12月_jokes000

12月 01月

原创 Hadoop MapReduce进阶使用分布式缓存进行replicated join

概念：reduce-side join技术是灵活的，但是有时候它仍然会变得效率极低。由于join直到reduce()阶段才会开始，我们将会在网络中传递shuffle所有数据，而在大多数情况下，我们会在join阶段丢掉大多数传递的数据。因此我们期望能够在map阶段完成整个join操作。主要技术难点：在map阶段完成join的主要困难就是mapper可能需要与一个它自己不能获得的数据进行j

2011-12-19 15:22:31 7105

原创 Hadoop MapReduce进阶使用DataJoin包实现Join

概念：Hadoop有一个叫DataJoin的包为Data Join提供相应的框架。它的Jar包存在于contrib/datajoin/hadoop-*-datajoin。为区别于其他的data join技术，我们称其为reduce-side join。（因为我们在reducer上作大多数的工作）reduce-side join引入了一些术语及概念： 1.Dat

2011-12-17 20:16:13 7568 15

翻译 Hadoop MapReduce进阶使用Chain

情况：在进行高级的数据处理时，你会发现你的程序不能放在一个的MapReduce job之中了。Hadoop支持将多个MapReduce Job串成一条链来形成一个更大的MapReduce Job。同时你会发现Hadoop数据处理过程中通常包括多个数据源，我们将探索一些join技术同时处理多个数据源。1.将具有复杂依赖关系的多个MapReduce Job串联起来。情况：有三个Job,分别成为

2011-12-17 12:24:48 6540 3

原创 Hadoop MapReduce示例代码

《Hadoop in Action》第四章习题：0.MaxValue:要求输出cite75_99.txt中最大的CITED值：要点： 1.Mapper只输出它所处理的数据中的最大值。（重写cleanup()函数） 2.设置Reducer数目为一个 -D mapred.reduce.tasks=1，同时也只输出所处理的最大值。（重写cleanup()函数） 3.

2011-12-15 20:34:27 11115 5

翻译 Hadoop 使用Combiner提高Map/Reduce程序效率

众所周知，Hadoop框架使用Mapper将数据处理成一个键值对，再网络节点间对其进行整理(shuffle)，然后使用Reducer处理数据并进行最终输出。在上述过程中，我们看到至少两个性能瓶颈：如果我们有10亿个数据，Mapper会生成10亿个键值对在网络间进行传输，但如果我们只是对数据求最大值，那么很明显的Mapper只需要输出它所知道的最大值即可。这样做不仅可以减轻网

2011-12-15 10:39:19 21292 1

转载 Ubuntu右上角网络标志消失的解决方案

sudo service network-manager stopsudo rm /var/lib/NetworkManager/NetworkManager.statesudo service network-manager startsudo gedit /etc/NetworkManager/nm-system-settings.conf把false改成trues

2011-12-14 23:46:34 3360

翻译基础MapReduce程序骨架

/*************************************************** * MapReduce Basic Template * Author: jokes000 * Date: 2011-12-14 * Version: 1.0.0 **************************************************/public

2011-12-14 16:04:11 2133

转载数据结构与算法面试题80道

转自：http://hi.baidu.com/geogre_jsj/blog/item/e4b98fd2aab5aa3611df9b92.html由于这些题，实在太火了。所以，应广大网友建议要求，在此把之前已整理公布的前80题，现在，一次性分享出来。此也算是前80题第一次集体亮相。此些题，已有上万人，看到或见识到，若私自据为己有，必定为有知之

2011-12-14 15:11:10 145216 5

转载在Eclipse下配置运行hadoop

转载自：http://hi.baidu.com/lingsuch/blog/item/c374fdecda19e82127979198.html非常感谢此文对我提供的帮助。自己乱搞，出了点问题，弄来弄去，总算弄OK了主要就是版本的问题我的开发环境是：Ubuntu，如果安装的版本低，系统更新下1.安装eclipse版本是eclips

2011-12-14 15:07:29 3286

转载 Ubuntu DNS配置与使用命令

经过长时间学习Ubuntu DNS，你可能会遇到Ubuntu DNS中网络问题，这里将介绍Ubuntu DNS解决网络问题的方法，新装了Ubuntu，虽然使用图形界面明明已经设置好了ip，网关等等，但是不能上网。一个朋友提醒说，也许是设置的问题，试试命令行的设置。于是搜索了一下怎么设置，结果还真的成功了。具体如下：1. 检验是否可以连通，就使用ping命令ping 网关开始的时候总是现

2011-12-14 14:53:25 1397

原创 ASP.NET GridView总结

ASP.NET中GridView具有十分强大的功能，这里例举一些功能，详情见资源内GridView资料。资源链接

2011-12-13 21:16:48 779

原创 Hadoop Map/Reduce 新API中自己的FileInputFormat写法

在看《Hadoop in Action》时发现代码使用的是旧的API，且部分API已经标记为Deprecated。所以自己尝试着写了一个使用新API的例子来完成该代码的功能。数据格式如下："CITING","CITED"3858241,9562033858241,13242343858241,33984063858241,3557384...程序的目的是将所

2011-12-11 22:39:01 5424 1

转载 Hadoop MapReduce新旧API区别

新增的Java MapReduce APIHadoop的版本0.20.0包含有一个新的 Java MapReduce API，有时也称为"上下文对象"(context object)，旨在使API在今后更容易扩展。新的API 在类型上不兼容先前的API，所以，需要重写以前的应用程序才能使新的API发挥作用。新增的API 和旧的API 之间，有下面几个明显的区别。新的API

2011-12-10 23:29:47 6798

翻译 Hadoop Map/Reduce OutputFormat概念

MapReduce使用OutputFormat类将数据输出存入文件中，其基本与InputFormat类似。输出没有分块，每个Reducer将它的输出直接写到自己的文件中。输出文件存在于一个共有目录当中，一般被命名为part-nnnnn，nnnnn是Reducer的分区ID。　　Hadoop提供数种标准的OutputFormat的实现，如表中所示。几乎所有我们使用的类都继承自FileOu

2011-12-10 20:08:28 4028

翻译 Hadoop Map/Reduce InputFormat基础

有时候你可能想要用不同的方法从input data中读取数据。那么你就需要创建一个自己的InputFormat类。 InputFormat是一个只有两个函数的接口。public interface InputFormat { InputSplit[] getSplits(JobConf job, int numSplits) throws IOException;

2011-12-10 18:55:48 3704

翻译 Hadoop Map/Reduce Partitioner概念

在Hadoop Map/Reduce框架下，当Mapper处理好数据后，需要使用Partitioner确定怎样合理地将Mapper输出分配到Reducer之中。默认的情况下，Hadoop对键值对中的key取hash值来确定怎样分配给相应的Reducer。Hadoop使用HashParitioner class来执行这一操作。但是有时候HashPartitioner并不能完成它的功能。

2011-12-10 15:07:24 4869

关系代数解释器

关系代数解释器，模拟关系代数。内有解释器使用教程，对于关系代数理解十分有益。

2012-04-30

软件设计师真题2004~2010

软件设计师真题。。 200405~ 201011

2012-01-09

GridView资料

ASP.NET GridView相关资料，有示例代码，有详细文档。

2011-12-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人