2011年11月_bertzhang

12月 11月 09月 08月

转载 SpiderDuck与NoSQL – Twitter实时URL抓取服务架构

原文：http://blog.nosqlfan.com/html/3457.html最近Twitter开发者博客上发表了一篇文章，向大家介绍了Twitter的URL抓取服务SpiderDuck，其中用到了Cassandra，HDFS和Memcached作为存储部件。是一个了解NoSQL使用方法的好例子。SpiderDuck的架构如下图所示：其分为下面几个部分：

2011-11-28 13:24:29 640

转载 hadoop主节点（NameNode）备份策略以及恢复方法

一、edits和fsimage 首先要提到两个文件edits和fsimage，下面来说说他们是做什么的。集群中的名称节点（NameNode）会把文件系统的变化以追加保存到日志文件edits中。当名称节点（NameNode）启动时，会从镜像文件 fsimage 中读取HDFS的状态，并且把edits文件中记录的操作应用到fsimage，也就是合并到fsimage中

2011-11-24 17:02:40 817

转载 diff和patch使用指南

diff和patch是一对工具，在数学上来说，diff是对两个集合的差运算，patch是对两个集合的和运算。　　diff比较两个文件或文件集合的差异，并记录下来，生成一个diff文件，这也是我们常说的patch文件，即补丁文件。　　patch能将diff文件运用于原来的两个集合之一，从而得到另一个集合。举个例子来说文件A和文件B,经过diff之后生成了补丁文件C,那么着个过程相当于 A

2011-11-24 11:32:40 564

原创 hdfs写文件过程

作者：Liao hongshen关于hadoop写文件的过程的一个描述；首先附图（hadoop指南中）。关于会上讨论的数据写入一致性，真实的过程和刘喆描述是相同的，由DFSClient向第一个datanode（从namenode申请）中建立dataoutputstream，在这个中会写入复制datanode的头信息；Datanode中的DataXcev

2011-11-23 16:43:56 2400

转载 Hadoop NameNode单点问题解决方案之一AvatarNode

翻译自Facebook Hadoop架构师(Dhruba Borthakur)的一篇文章我们遇到的情况Hadoop NameNode存在单点问题。这个问题会影响分布式平台24*7运行。先说说我们的情况吧。我们的团队负责管理一个1200节点的集群(总大小12PB)，目前是运行版本为Hadoop 0.20，transaction logs写入一个共享的NFS filer(注：Net

2011-11-23 16:37:23 1154

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人