- 博客(5)
- 收藏
- 关注
转载 SpiderDuck与NoSQL – Twitter实时URL抓取服务架构
原文:http://blog.nosqlfan.com/html/3457.html最近Twitter开发者博客上发表了一篇文章,向大家介绍了Twitter的URL抓取服务SpiderDuck,其中用到了Cassandra,HDFS和Memcached作为存储部件。是一个了解NoSQL使用方法的好例子。SpiderDuck的架构如下图所示:其分为下面几个部分:
2011-11-28 13:24:29 640
转载 hadoop主节点(NameNode)备份策略以及恢复方法
一、edits和fsimage 首先要提到两个文件edits和fsimage,下面来说说他们是做什么的。集群中的名称节点(NameNode)会把文件系统的变化以追加保存到日志文件edits中。当名称节点(NameNode)启动时,会从镜像文件 fsimage 中读取HDFS的状态,并且把edits文件中记录的操作应用到fsimage,也就是合并到fsimage中
2011-11-24 17:02:40 817
转载 diff和patch使用指南
diff和patch是一对工具,在数学上来说,diff是对两个集合的差运算,patch是对两个集合的和运算。 diff比较两个文件或文件集合的差异,并记录下来,生成一个diff文件,这也是我们常说的patch文件,即补丁文件。 patch能将diff文件运用于 原来的两个集合之一,从而得到另一个集合。举个例子来说文件A和文件B,经过diff之后生成了补丁文件C,那么着个过程相当于 A
2011-11-24 11:32:40 564
原创 hdfs写文件过程
作者:Liao hongshen关于hadoop写文件的过程的一个描述; 首先附图(hadoop指南中)。关于会上讨论的数据写入一致性,真实的过程和刘喆描述是相同的,由DFSClient向第一个datanode(从namenode申请)中建立dataoutputstream,在这个中会写入复制datanode的头信息;Datanode中的DataXcev
2011-11-23 16:43:56 2400
转载 Hadoop NameNode单点问题解决方案之一AvatarNode
翻译自Facebook Hadoop架构师(Dhruba Borthakur)的一篇文章 我们遇到的情况Hadoop NameNode存在单点问题。这个问题会影响分布式平台24*7运行。先说说我们的情况吧。 我们的团队负责管理一个1200节点的集群(总大小12PB),目前是运行版本为Hadoop 0.20,transaction logs写入一个共享的NFS filer(注:Net
2011-11-23 16:37:23 1154
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人