2012年08月_macyang

转载 Memory Access Patterns Are Important

In high-performance computing it is often said that the cost of a cache-miss is the largest performance penalty for an algorithm. For many years the increase in speed of our processors has greatly

2012-08-31 21:12:29 1017

转载淘宝的数据库拆分（TDDL）

淘宝的数据拆分历程系统刚开始的时候，因为系统刚上线，用户不多，那个时候，所有的数据都放在了同一个数据库中，这个时候因为用户少压力小，一个数据库完全可以应付的了，但是随着运营那些哥们辛苦的呐喊和拼命的推广以后，突然有一天发现，oh,god,用户数量突然变多了起来，随之而来的就是数据库这哥们受不了，它终于在某一天大家都和惬意的时候挂掉啦。此时，咱们搞技术的哥们，就去看看究竟是啥原因，我们

2012-08-29 22:49:57 2617

转载 Linux Kernel Tuning for C500k

Like the idea of working on large scale problems? We’re hiring talented engineers, and would love to chat with you – check it out!Note: Concurrency, as defined in this article, is the same a

2012-08-26 22:26:50 979

转载 Google Dremel 原理 - 如何能3秒分析1PB

简介Dremel 是Google 的“交互式”数据分析系统。可以组建成规模上千的集群，处理PB级别的数据。MapReduce处理一个数据，需要分钟级的时间。作为MapReduce的发起人，Google开发了Dremel将处理时间缩短到秒级，作为MapReduce的有力补充。Dremel作为Google BigQuery的report引擎，获得了很大的成功。最近Apache计划推出Dreme

2012-08-24 10:07:36 1356

转载漫谈linux文件IO

在Linux 开发中，有几个关系到性能的东西，技术人员非常关注：进程，CPU，MEM，网络IO，磁盘IO。本篇文件打算详细全面，深入浅出。剖析文件IO的细节。从多个角度探索如何提高IO性能。本文尽量用通俗易懂的视角去阐述。不copy内核代码。阐述之前，要先有个大视角，让我们站在万米高空，鸟瞰我们的文件IO，它们设计是分层的，分层有2个好处，一是架构清晰，二是解耦。让我们看一下下面这张图

2012-08-22 22:30:36 1287

转载 HBase跨集群复制数据的另一种方法

一、从源hbase集群中复制出HBase数据库表到本地目录最好停止HBase，否则可能会丢部分数据[hbase@hadoop200 ~]$ hadoop fs -get /hbase/toplist_ware_total_1009_201232 toplist_ware_total_1009_201232压缩[hbase@hadoop200 ~]$ tar zcvf to

2012-08-21 20:55:41 3601 1

转载 HBase在淘宝主搜索的Dump中的性能调优

目前HBase已经运用于淘宝主搜索的全量和增量的数据存储，有效的减低的数据库的压力，增强了业务扩展的能力。Dump系统的特点是要求在短时间内处理大量数据，对延时要求高。在实施这个项目过程中，我们积累了一些优化的实践，抛砖引玉，供大家参考。环境：Hadoop CDH3U4 + HBase 0.92.11、尽可能用LZO数据使用LZO，不仅可以节省存储空间尤其是可以提高传输

2012-08-21 07:25:50 711

转载 MemSQL Architecture - The Fast (MVCC, InMem, LockFree, CodeGen) And Familiar (SQL)

This is an interview with MemSQL cofounder’s Eric Frenkiel and Nikita Shamgunov, in which they try to answer critics by going into more depth about their technology.MemSQL ruffled a few feathers

2012-08-20 13:40:50 2612 1

转载 Hadoop Job Tuning

Hadoop平台已经成为了大多数公司的分布式数据处理平台，随着数据规模的越来越大，对集群的压力也越来越大，集群的每个节点负担自然就会加重，而且集群内部的网络带宽有限，数据交换吞吐量也在面临考验，由此引发了人们对大规模数据处理进行优化的思考。本文仅从实践经验出发，针对Hadoop Job优化提出了一些观点，不包含HDFS的优化。Job Tracker Related严格来说，下面

2012-08-19 10:11:07 545

原创 Speculative Execution in Hadoop

所谓的推测执行，就是当所有task都开始运行之后，Job Tracker会统计所有任务的平均进度，如果某个task所在的task node机器配置比较低或者CPU load很高（原因很多），导致任务执行比总体任务的平均执行要慢，此时Job Tracker会启动一个新的任务（duplicate task），原有任务和新任务(一个task会有多个attempt同时执行)哪个先执行完就把另外一个kill

2012-08-18 14:28:57 2525

转载 The Architecture of Open Source Applications - nginx

nginx (pronounced "engine x") is a free open source web server written by Igor Sysoev, a Russian software engineer. Since its public launch in 2004, nginx has focused on high performance, high concurr

2012-08-07 21:14:40 1672

转载 Facebook数据仓库揭秘：RCFile高效存储结构

本文介绍了Facebook公司数据分析系统中的RCFile存储结构，该结构集行存储和列存储的优点于一身，在MapReduce环境下的大规模数据分析中扮演重要角色。Facebook曾在2010 ICDE（IEEE International Conference on Data Engineering）会议上介绍了数据仓库Hive。Hive存储海量数据在Hadoop系统中，提供了一套类数据库

2012-08-05 21:00:32 726

转载 Column Statistics in Hive

优化无止境，通过列的统计信息来选择最优的执行计划，看看Cloudera的Hive团队是如何做到的，本文主要从两个方面说的：动机、统计使用的算法和数据结构Over the last couple of months the Hive team at Cloudera has been working hard to bring a bunch of exciting new featur

2012-08-05 15:01:36 1229

Mac Track