2012年09月_macyang

转载 Analyzing Twitter Data with Hadoop

Social media has gained immense popularity with marketing teams, and Twitter is an effective tool for a company to get people excited about its products. Twitter makes it easy to engage users and comm

2012-09-22 20:16:43 1203

转载 Apache Hadoop: Best Practices and Anti-Patterns

Apache Hadoop is a software framework to build large-scale, shared storage and computing infrastructures. Hadoop clusters are used for a variety of research and development projects, and for a growing

2012-09-21 16:13:19 732

转载 git for designers

– This works on the assumption the person has no previous knowledge about SCM –Version ControlRepository StructureBranchesWorkflowBranchingMore useful toolsBest PracticesWhat have you done

2012-09-21 15:16:57 1158

转载 Google Spanner原理- 全球级的分布式数据库

Google Spanner简介Spanner 是Google的全球级的分布式数据库 (Globally-Distributed Database) 。Spanner的扩展性达到了令人咋舌的全球级，可以扩展到数百万的机器，数已百计的数据中心，上万亿的行。更给力的是，除了夸张的扩展性之外，他还能同时通过同步复制和多版本来满足外部一致性，可用性也是很好的。冲破CAP的枷锁，在三者之间完美平衡。

2012-09-19 21:30:37 1606

转载 HDFS-RAID使用Erasure Code来实现HDFS的数据冗余

目前的HDFS中数据是靠三备份triplication来保证冗余的。显然这只是一个简单有效的方法而不是一个非常elegant的方法。三备份浪费了大量存储空间，在集群规模较小的时候可能还不是那么明显，但是对于大规模集群就比较明显了。如果按照1GB存储空间的成本是1$来算，如果数据规模是5TB，那么两备份（10TB）和三备份（15TB）的成本差距只有5000$；而如果数据规模到了5PB的话，两备份和三

2012-09-16 14:18:34 1564

转载 HDFS and Erasure Codes (HDFS-RAID)

The Hadoop Distributed File System has been great in providing a cloud-type file system. It is robust (when administered correctly :-)) and highly scalable. However, one of the main drawbacks of HDF

2012-09-15 21:59:41 1584

转载 Namenode做block Recovery过程详细剖析

hdfs为什么会做block recovery说HDFS的block recovery，其实就是Namenode认为该block的状态需要发生一些变化，其原信息和数据都需要做一些相应的调整（或恢复），原信息的调整在namenode上，而由于数据本身是存储在datanode的磁盘上的，所以数据本身的调整其实是由datanode来完成。那么，为什么Namenode会认为某个bl

2012-09-15 21:51:15 4211 2

转载 hadoop namenode启动过程详细剖析及瓶颈分析

NameNode启动过程详细剖析NameNode中几个关键的数据结构FSImageNamenode会将HDFS的文件和目录元数据存储在一个叫fsimage的二进制文件中，每次保存fsimage之后到下次保存之间的所有hdfs操作，将会记录在editlog文件中，当editlog达到一定的大小（bytes，由fs.checkpoint.size参数定义）或从上次保存过后一定时间段过后（s

2012-09-08 20:24:20 7156 2

转载提高hadoop的mapreduce job效率笔记之二（尽量的用Combiner）

当job 运行中发现如下的现象，通常job是可以优化的：Job的运行过程中会有一系列的sort 的操作，并且reduce input groups的counter变量的值远远要小于reduce input records counter。Job在 mapper完成以后，shuffle过程中传输了大量的中间结果文件（例如：每个slave上的map output bytes都好几个GB）

2012-09-04 22:06:02 883

原创 How Many Maps And Reduces

读了这篇文章相信就能解释为什么将dfs.block.size设置的太大也是不好的原因了！new-mr-api 的切割大小的影响参数　　– mapred.max.split.size 切割出的split最大size 默认:Long.MAX_VALUE　　– mapred.min.split.size 切割出的split最小size 默认:1• new-mr-api的切割大小算

2012-09-04 10:54:00 779

转载提高hadoop的mapreduce job效率笔记之一（修改mapper和reducer数量）

hadoop 的mapreduce 的作业在运行过程中常常碰到一些这样的情况：每一个map或者reduce只有30-40秒钟就结束超大规模的job 时，通常会需要大量的map和reduce的slots 支持，但是job运行起来后，running的map和reduce并没有沾满集群的可用slots当几乎所有的map和 reducers都在调度系统中运行着，此时却有一个或者两个pe

2012-09-03 23:01:34 849

转载 hadoop中使用lzo压缩格式支持笔记

通常hadoop中的mapreduce作业都会产生大量都中间文件，当要处理当原始数据非常大，并且在一定大map处理逻辑的情况下，这些中间文件会非常的大，hadoop mapreduce的中间文件是通过slave上hadoop-site.xml配置文件中的mapred.local.dir 配置选项来指定的。 mapred.local.dir /disk

2012-09-03 22:45:43 1127

转载磁盘空间不足导致task的mapred local文件无法写入而失败解决

Task 在运行的过程中，是需要写本地文件系统的，hadoop中就有配置选项 mapred .local.dir 来配置这个本地文件的写入点，可以有多个写入点，通常如果每个slave上有多个磁盘，分别挂载在 /disk{1..3} 的话，就可以将之配置为： mapred.local.dir /disk1/mapred/local,/disk2/mapred/

2012-09-03 22:33:43 4153

转载使hadoop支持Splittable压缩lzo

luoli哥要删自己的blog了，所以好文章赶紧转过来，期望以后还有的看：）在hadoop中使用lzo的压缩算法可以减小数据的大小和数据的磁盘读写时间，不仅如此，lzo是基于block分块的，这样他就允许数据被分解成chunk，并行的被hadoop处理。这样的特点，就可以让lzo在hadoop上成为一种非常好用的压缩格式。由于压缩的数据通常只有原始数据的1/4，在HD

2012-09-03 22:30:58 752

原创 Hadoop Summit 2012

2012 hadoop summit 早已经在6月份就结束了，很多ppt也已经放到了slideshare上面，但是在我天朝确无法访问，要么人肉翻墙要么买个vpn吧！Sessions: http://hadoopsummit.org/program/Reading list:Optimizing MapReduce Job Performance (http://www.s

2012-09-02 17:46:53 1039

转载 Top 10 NameNode-related problems

After joining MapR back in 2009, I spent many months meeting with early Hadoop users and listening to their pain points. In many of these meetings, users described problems related the HDFS architectu

2012-09-02 11:46:53 669

转载 File Appends in HDFS

There is some confusion about the state of the file append operation in HDFS. It was in, now it’s out. Why was it removed, and when will it be reinstated? This post looks at some of the history behind

2012-09-02 11:46:09 947

转载 The Small Files Problem

一篇2009年的老文章，现在读起来还是觉得不错，特在这里mark一下！Small files are a big problem in Hadoop — or, at least, they are if the number of questions on the user list on this topic is anything to go by. In this post

2012-09-01 22:24:57 952

转载行为，标准，自勉

从内心深深的体会到能否做到这些，对每个人的职业生涯和成长多么至关重要。希望各位兄弟来一起自勉一：沉稳（1 ）不要随便显露你的情绪。（2 ）不要逢人就诉说你的困难和遭遇。（3 ）在征询别人的意见之前，自己先思考，但不要先讲。（4 ）不要一有机会就唠叨你的不满。（5 ）重要的决定尽量有别人商量，最好隔一天再发布。（6 ）讲话不要有任何的慌张，走路也是。

2012-09-01 15:25:47 2012

转载 hadoop作业调优参数整理及原理

1 Map side tuning 参数1.1 MapTask 运行内部原理当map task 开始运算，并产生中间数据时，其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂，并且利用到了内存buffer 来进行已经产生的部分结果的缓存，并在内存buffer 中进行一些预排序来优化整个map 的性能。如上图所示，每一个map 都会对应存在一个内存buffer （Map

2012-09-01 14:51:58 515

转载 High Availability for the Hadoop Distributed File System (HDFS)

BackgroundApache Hadoop consists of two primary components: HDFS and MapReduce. HDFS, the Hadoop Distributed File System, is the primary storage system of Hadoop, and is responsible for storing an

2012-09-01 13:09:33 1011

转载 Hadoop Availability

A common question on the Apache Hadoop mailing lists is what’s going on with availability? This post takes a look at availability in the context of Hadoop, gives an overview of the work in progress

2012-09-01 13:08:38 829

Mac Track