分布式
文章平均质量分 56
厚hou
个人博客www.jiqixuexi.net
展开
-
腾讯大数据之 TDW 计算引擎解析——Shuffle
腾讯分布式数据仓库基于开源软件Hadoop和Hive进行构建,TDW计算引擎包括两部分:MapReduce和Spark,两者内部都包含了一个重要的过程—Shuffle。本文对Shuffle过程进行解析,并对两个计算引擎的Shuffle过程进行比较。目录[-]1、Shuffle过程介绍1.1 MapReduce的Shuffle过程介绍1.1.1 Spill过程转载 2014-07-17 13:07:53 · 2095 阅读 · 0 评论 -
shuffle过程的简单描述
shuffle是处在map和reduce之间的过程。我们看一下这个过程都有哪些步骤,对这个问题了解的并不深,可能有错误,忘指正1. mapmap输出key,value,对应代码里的context.write(key, value);,这个步骤是将key,value写到内存buffer里了,这个内存的默认大小是100M2. sort当数据大小超过buffer容量的80%(默认)时,会原创 2014-07-22 12:34:55 · 1395 阅读 · 0 评论 -
在Linux上安装Memcached服务
下载并安装Memcache服务器端服务器端主要是安装memcache服务器端.下载:http://www.danga.com/memcached/dist/memcached-1.2.2.tar.gz另外,Memcache用到了libevent这个库用于Socket的处理,所以还需要安装libevent,libevent的最新版本是libevent-1.3。(如果你的系统已经安装了li转载 2014-09-15 14:42:42 · 607 阅读 · 0 评论 -
hadoop MapReduce join
1. 概述在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法,然后给出了几种针对不同输入数据集的优化方法。2. 常见的join方法介绍假设要进行join的数据分别来自File转载 2014-10-27 21:50:51 · 618 阅读 · 0 评论 -
linux下VIRT,RES,SHR的含义
来源:http://sunxiaqw.blog.163.com/blog/static/99065438201352052339142/如题的三个字段虽说在man top下面都有解释,但感觉有些含糊,看后难以理解它们对进程资源占用的具体情况是如何的。查阅资料后,归纳一下。VIRT:1、进程“需要的”虚拟内存大小,包括进程使用的库、代码、数据等2、假如转载 2014-11-27 13:45:21 · 3613 阅读 · 0 评论 -
hadoop用mutipleInputs实现map读取不同格式的文件
mapmap读取不同格式的文件这个问题一直就有,之前的读取方式是在map里获取文件的名称,按照名称不同分不同的方式读取,例如下面的方式原创 2014-12-18 12:24:53 · 1534 阅读 · 0 评论 -
MapReduce中的二次排序
MapReduce中的二次排序2013年08月18日 ⁄ hadoop, hadoop及周边, mapreduce ⁄ 暂无评论在MapReduce操作时,我们知道传递的会按照key的大小进行排序,最后输出的结果是按照key排过序的。有的时候我们在key排序的基础上,对value也进行排序。这种需求就是二次排序。我们先看一下Mapper任务的数据处理过程吧,见下转载 2014-12-15 13:41:56 · 736 阅读 · 0 评论