hadoop
文章平均质量分 79
macyang
Chance is waiting for prepared people and my Status is read the fucking source code.
展开
-
The Next Generation of Apache Hadoop MapReduce
OverviewIn the Big Data business running fewer larger clusters is cheaper than running more small clusters. Larger clusters also process larger data sets and support more jobs and users.The Ap转载 2012-02-09 22:29:34 · 1134 阅读 · 0 评论 -
Next Generation of Apache Hadoop MapReduce – The Scheduler
IntroductionThe previous post in this series covered the next generation of Apache Hadoop MapReduce in a broad sense, particularly its motivation, high-level architecture, goals, requirements, a转载 2012-02-09 22:32:18 · 730 阅读 · 0 评论 -
MapReduce:详解Shuffle过程
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里转载 2012-02-16 22:34:05 · 1790 阅读 · 1 评论 -
浅析Hadoop文件格式
OverviewSequenceFile is a flat file consisting of binary key/value pairs. It is extensively used in MapReduce as input/output formats. It is also worth noting that, internally, the temporary转载 2012-06-17 16:10:33 · 1337 阅读 · 0 评论 -
Using Hadoop’s DistributedCache
While working with Map Reduce applications, there are times when we need to share files globally with all nodes on the cluster. This can be a shared library to be accessed by each task, a global looku转载 2012-04-25 09:59:52 · 1363 阅读 · 0 评论 -
Speculative Execution in Hadoop
所谓的推测执行,就是当所有task都开始运行之后,Job Tracker会统计所有任务的平均进度,如果某个task所在的task node机器配置比较低或者CPU load很高(原因很多),导致任务执行比总体任务的平均执行要慢,此时Job Tracker会启动一个新的任务(duplicate task),原有任务和新任务(一个task会有多个attempt同时执行)哪个先执行完就把另外一个kill原创 2012-08-18 14:28:57 · 2525 阅读 · 0 评论 -
Hadoop Job Tuning
Hadoop平台已经成为了大多数公司的分布式数据处理平台,随着数据规模的越来越大,对集群的压力也越来越大,集群的每个节点负担自然就会加重,而且集群内部的网络带宽有限,数据交换吞吐量也在面临考验,由此引发了人们对大规模数据处理进行优化的思考。本文仅从实践经验出发,针对Hadoop Job优化提出了一些观点,不包含HDFS的优化。Job Tracker Related严格来说,下面转载 2012-08-19 10:11:07 · 545 阅读 · 0 评论 -
hadoop作业调优参数整理及原理
1 Map side tuning 参数1.1 MapTask 运行内部原理 当map task 开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内存buffer 来进行已经产生的部分结果的缓存,并在内存buffer 中进行一些预排序来优化整个map 的性能。如上图所示,每一个map 都会对应存在一个内存buffer (Map转载 2012-09-01 14:51:58 · 515 阅读 · 0 评论 -
The Small Files Problem
一篇2009年的老文章,现在读起来还是觉得不错, 特在这里mark一下!Small files are a big problem in Hadoop — or, at least, they are if the number of questions on the user list on this topic is anything to go by. In this post转载 2012-09-01 22:24:57 · 952 阅读 · 0 评论 -
Hadoop Availability
A common question on the Apache Hadoop mailing lists is what’s going on with availability? This post takes a look at availability in the context of Hadoop, gives an overview of the work in progress转载 2012-09-01 13:08:38 · 829 阅读 · 0 评论 -
High Availability for the Hadoop Distributed File System (HDFS)
BackgroundApache Hadoop consists of two primary components: HDFS and MapReduce. HDFS, the Hadoop Distributed File System, is the primary storage system of Hadoop, and is responsible for storing an转载 2012-09-01 13:09:33 · 1011 阅读 · 0 评论 -
File Appends in HDFS
There is some confusion about the state of the file append operation in HDFS. It was in, now it’s out. Why was it removed, and when will it be reinstated? This post looks at some of the history behind转载 2012-09-02 11:46:09 · 947 阅读 · 0 评论 -
Top 10 NameNode-related problems
After joining MapR back in 2009, I spent many months meeting with early Hadoop users and listening to their pain points. In many of these meetings, users described problems related the HDFS architectu转载 2012-09-02 11:46:53 · 669 阅读 · 0 评论 -
Hadoop Summit 2012
2012 hadoop summit 早已经在6月份就结束了,很多ppt也已经放到了slideshare上面,但是在我天朝确无法访问,要么人肉翻墙要么买个vpn吧!Sessions: http://hadoopsummit.org/program/Reading list:Optimizing MapReduce Job Performance (http://www.s原创 2012-09-02 17:46:53 · 1039 阅读 · 0 评论 -
hadoop中使用lzo压缩格式支持笔记
通常hadoop中的mapreduce作业都会产生大量都中间文 件 ,当要处理当原始数 据 非常大,并且在一定大map处理逻辑的情况下,这些中间文件会非常的大,hadoop mapreduce的中间文件是通过slave上hadoop-site.xml配置文件中的mapred.local.dir 配置选项来指定的。 mapred.local.dir /disk转载 2012-09-03 22:45:43 · 1127 阅读 · 0 评论 -
使hadoop支持Splittable压缩lzo
luoli哥要删自己的blog了,所以好文章赶紧转过来,期望以后还有的看:)在hadoop中使用lzo的压缩算法可以减小数 据 的大小和数据的磁盘读写时间,不仅如此,lzo是基于block分块的,这样他就允许数据被分解成chunk,并行 的被hadoop处理。这样的特点,就可以让lzo在hadoop上成为一种非常好用的压缩格式。 由于压缩的数据通常只有原始数据的1/4,在HD转载 2012-09-03 22:30:58 · 752 阅读 · 0 评论 -
磁盘空间不足导致task的mapred local文件无法写入而失败解决
Task 在运行的过程中,是需要写本地文件 系 统 的,hadoop中就有配置选项 mapred .local.dir 来配置这个本地文件的写入点,可以有多个写入点,通常如果每个slave上有多个磁 盘 ,分别挂载在 /disk{1..3} 的话,就可以将之配置为: mapred.local.dir /disk1/mapred/local,/disk2/mapred/转载 2012-09-03 22:33:43 · 4153 阅读 · 0 评论 -
提高hadoop的mapreduce job效率笔记之一(修改mapper和reducer数量)
hadoop 的mapreduce 的作业在运行过程中常常碰到一些这样的情 况:每一个map或者reduce只有30-40秒钟就结束超 大规模的job 时,通常会需要大量的map和reduce的slots 支持,但是job运行起来后,running的map和reduce并没有沾满集群的可用slots当几乎所有的map和 reducers都在调度系统 中运行着,此时却有 一个或者两个pe转载 2012-09-03 23:01:34 · 849 阅读 · 0 评论 -
How Many Maps And Reduces
读了这篇文章相信就能解释为什么将dfs.block.size设置的太大也是不好的原因了!new-mr-api 的切割大小的影响参数 – mapred.max.split.size 切割出的split最大size 默认:Long.MAX_VALUE – mapred.min.split.size 切割出的split最小size 默认:1• new-mr-api的切割大小算原创 2012-09-04 10:54:00 · 779 阅读 · 0 评论 -
提高hadoop的mapreduce job效率笔记之二(尽量的用Combiner)
当job 运行中发现如下的现象,通常job是 可以优化的:Job的运行过程中会有一系列的sort 的操作,并且reduce input groups的counter变量的值远远要小于reduce input records counter。Job在 mapper完成以后,shuffle过程中传输了大量的中间结果文 件 (例如:每个slave上的map output bytes都好几个GB)转载 2012-09-04 22:06:02 · 883 阅读 · 0 评论 -
hadoop namenode启动过程详细剖析及瓶颈分析
NameNode启动过程详细剖析NameNode中几个关键的数据结构FSImageNamenode会将HDFS的文件和目录元数据存储在一个叫fsimage的二进制文件中,每次保存fsimage之后到下次保存之间的所有hdfs操作,将会记录在editlog文件中,当editlog达到一定的大小(bytes,由fs.checkpoint.size参数定义)或从上次保存过后一定时间段过后(s转载 2012-09-08 20:24:20 · 7156 阅读 · 2 评论 -
Namenode做block Recovery过程详细剖析
hdfs为什么会做block recovery说HDFS的block recovery,其实就是Namenode认为该block的状态需要发生一些变化,其原信息和数据都需要做一些相应的调整(或恢复),原信息的调整在namenode上,而由于数据本身是存储在datanode的磁盘上的,所以数据本身的调整其实是由datanode来完成。那么,为什么Namenode会认为某个bl转载 2012-09-15 21:51:15 · 4211 阅读 · 2 评论 -
HDFS-RAID使用Erasure Code来实现HDFS的数据冗余
目前的HDFS中数据是靠三备份triplication来保证冗余的。显然这只是一个简单有效的方法而不是一个非常elegant的方法。三备份浪费了大量存储空间,在集群规模较小的时候可能还不是那么明显,但是对于大规模集群就比较明显了。如果按照1GB存储空间的成本是1$来算,如果数据规模是5TB,那么两备份(10TB)和三备份(15TB)的成本差距只有5000$;而如果数据规模到了5PB的话,两备份和三转载 2012-09-16 14:18:34 · 1564 阅读 · 0 评论 -
HDFS and Erasure Codes (HDFS-RAID)
The Hadoop Distributed File System has been great in providing a cloud-type file system. It is robust (when administered correctly :-)) and highly scalable. However, one of the main drawbacks of HDF转载 2012-09-15 21:59:41 · 1584 阅读 · 0 评论 -
Apache Hadoop: Best Practices and Anti-Patterns
Apache Hadoop is a software framework to build large-scale, shared storage and computing infrastructures. Hadoop clusters are used for a variety of research and development projects, and for a growing转载 2012-09-21 16:13:19 · 732 阅读 · 0 评论 -
Analyzing Twitter Data with Hadoop
Social media has gained immense popularity with marketing teams, and Twitter is an effective tool for a company to get people excited about its products. Twitter makes it easy to engage users and comm转载 2012-09-22 20:16:43 · 1203 阅读 · 0 评论 -
Analyzing Twitter Data with Hadoop, Part 2: Gathering Data with Flume
This is the second article in a series about analyzing Twitter data using some of the components of the Hadoop ecosystem available in CDH, Cloudera’s open-source distribution of Hadoop and related p转载 2012-10-20 21:25:18 · 1331 阅读 · 0 评论 -
Hadoop内置作业调度器与调度平台的集成
Hadoop 现在几乎已经成为业界在大数据上事实的标准,越来越多的企业开始采用hadoop进行数据的存储及处理。既然涉及数据处理,一个不可不提的术语就是“作业” or “job”,大量的作业必然要引入作业管理及调度,hadoop也不能例外。传统企业中的调度工具,不管像是简单crontab,或者企业级的如control-M,很容易注意到,他们都主要考虑的是将作业分配到集群中的某一台,或者其中转载 2012-10-25 20:29:33 · 4919 阅读 · 0 评论 -
Trevni: A Column File Format
Version 0.1 DRAFT This document is the authoritative specification of a file format. Its intent is to permit compatible, independent implementations that read and/or write files in this format.转载 2012-10-25 16:02:38 · 1247 阅读 · 0 评论 -
Hadoop中Speculative Task调度策略
1. 背景Speculative Task,又叫推测式任务,是指在分布式集群环境下,因为程序bug,负载不均衡或者资源分布不均,造成同一个job的多个task运行速度不一致,有的task运行速度明显慢于其他task(比如:一个job的某个task进度只有10%,而其他所有task已经运行完毕),则这些task拖慢了作业的整体执行进度,为了避免这种情况发生,Hadoop会为该task启动sp转载 2012-11-07 22:26:36 · 1107 阅读 · 0 评论 -
HBase, HDFS and durable sync
HBase and HDFS go hand in hand to provide HBase's durability and consistency guarantees.One way of looking at this setup is that HDFS handles the distribution and storage of your data whereas HBas转载 2012-11-13 13:29:03 · 829 阅读 · 0 评论 -
Hadoop中HDFS文件系统的Append/Hflush/Read设计文档(HDFS-265:Revisit append)
转帖请注明来自本空间地址:http://blog.csdn.net/chenpingbuptchenpingbupt@gmail.com原文请参:https://issues.apache.org/jira/secure/attachment/12445209/appendDesign3.pdfhttps://issues.apache.org/jira/browse/HD转载 2012-11-13 15:20:57 · 1024 阅读 · 0 评论 -
在Hadoop中提升task的启动速度
Hadoop CDH3 Beta4 是一个比较早的cloudra realease的版本了,当前的hadoop已经不需要去做patch这个功能了,但是这篇文章分析和解决问题的方法很赞!===========================================在增量DUMP过程中,我们的job比较小,但是启动非常频繁,每个job的执行时间短,通过执行的日志发现,有转载 2012-12-02 14:11:36 · 559 阅读 · 0 评论 -
Hadoop基于Protocol Buffer的RPC实现代码分析-Server端
最新版本的Hadoop代码中已经默认了Protocol buffer(以下简称PB,http://code.google.com/p/protobuf/)作为RPC的默认实现,原来的WritableRpcEngine已经被淘汰了。来自cloudera的Aaron T. Myers在邮件中这样说的“since PB can provide support for evolving protoco转载 2012-12-11 23:41:05 · 5278 阅读 · 0 评论 -
Hadoop回收站功能
回收站简介在HDFS里,删除文件时,不会真正的删除,其实是放入回收站/trash回收站里的文件可以快速恢复。可以设置一个时间阈值,当回收站里文件的存放时间超过这个阈值或是回收站被清空时,文件才会被彻底删除,并且释放占用的数据块。Hadoop 的回收站trash功能默认是关闭的,所以需要在core-site.xml中手动开启--手动开启trash功能,添加fs.trash转载 2012-12-11 21:10:54 · 1167 阅读 · 0 评论 -
Hadoop 权限管理
如下图,Hadoop访问控制分为两级,其中ServiceLevel Authorization为系统级,用于控制是否可以访问指定的服务,例如用户/组是否可以向集群提交Job,它是最基础的访问控制,优先于文件权限和mapred队列权限验证。Access Control on Job Queues在job调度策略层之上,控制mapred队列的权限。DFSPermmision用户控制文件权限。目前版转载 2012-12-11 21:19:21 · 856 阅读 · 0 评论 -
Apache Hadoop 2.0 (Alpha)发布了
Apache Hadoop 2.0-alpha发布了,直接从0.23.x升为2.0版本,让我们再一次被Hadoop版本的混乱无序状态搞晕。本文将解析Hadoop -2.0-alpha中的新特性。相对于Hadoop-1.x版本(为了更全面的描述Hadop 2.0中的新特性,我们没有将之与0.23.x比较),添加了以下几个功能:1. HDFS HA (manual failover)转载 2012-12-11 22:56:19 · 768 阅读 · 0 评论 -
Hadoop的TaskTracker黑名单机制
Note:这里描述的黑名单是指jobtracker网页summary表格中显示的”Blacklisted Nodes",称之为集群黑名单.在Hadoop-4305之前,Hadoop中每个job会维护一个TaskTracker黑名单,这里称之为job黑名单。简单来讲就是当一个job中有4个task曾经在某个tasktracker上失败过,则该job就将这个tasktracker加入自己的jo转载 2012-12-25 21:55:39 · 578 阅读 · 0 评论 -
HDFS Federation设计动机与基本原理
HDFS Federation是Hadoop最新发布版本Hadoop-0.23.0中为解决HDFS单点故障而提出的namenode水平扩展方案。该方案允许HDFS创建多个namespace以提高集群的扩展性和隔离性。本篇文章主要介绍了HDFS Federation的设计动机和基本原理。1. 当前HDFS概况1.1 当前HDFS架构当前HDFS包含两层结构:(1) N转载 2012-12-11 21:27:55 · 695 阅读 · 0 评论 -
HDFS Federation(HDFS 联盟)介绍
HDFS Federation(HDFS 联盟)介绍张贵宾guibin.beijing@gmail.com2011.11.251. 当前HDFS架构和功能概述我们先回顾一下HDFS功能。HDFS实际上具有两个功能:命名空间管理(Namespace management)和块/存储管理服务(block/storage management)。转载 2012-12-11 22:36:11 · 621 阅读 · 0 评论