SpiderDuck与NoSQL – Twitter实时URL抓取服务架构

最新推荐文章于 2024-09-15 22:55:21 发布

bertzhang

最新推荐文章于 2024-09-15 22:55:21 发布

阅读量640

点赞数

文章标签： twitter nosql url cassandra memcached 缓存系统

原文：http://blog.nosqlfan.com/html/3457.html

最近Twitter开发者博客上发表了一篇文章，向大家介绍了Twitter的URL抓取服务SpiderDuck，其中用到了Cassandra，HDFS和Memcached作为存储部件。是一个了解NoSQL使用方法的好例子。

SpiderDuck的架构如下图所示：

其分为下面几个部分：

Kestrel: 是一个Twitter在使用的队列服务，这里将所有需要抓取的URL放入此队列中。
Schedulers（调度器）：调度器主要负责如下一些工作：在抓取前决定这个URL是否抓取（在最近N天内抓取过的不再进行抓取），在抓取中对跳转进行处理、以及对抓取工作进行调度，在抓取工作完成后，解析抓取内容，分析出其metadata信息，然后将此信息存入Metadata Store，并将抓取到的内容存到Content Score中。调度器是队列的处理程序，所以调度器之间互不依赖，能够很好的进行横向扩展。
Fetchers（抓取器）: 这是一个提供 Thrift 接口的抓取服务，主要工作是抓取URL内容，同时其会通过对网站的robots.txt进行分析，从而进行抓取频率控制，以使通过频率变化进行相应的横向扩展。
Memcached：这是一个用Memcached构建的分布式缓存系统，主要是为抓取器缓存robots.txt文件内容。
Metadata Store：这是一个基于Cassandra的分布式hash table，用于存储URL内容的meta信息与URL的映射关系。同时对外提供实时的对metadata的请求服务。
Content Store: 这是一个 HDFS 集群，用于保存所有抓取到的内容实体，协调器通过Scribe将数据写入HDFS中。

NoSQLFan后记：Cassandra曾因Twitter而一夜成名，尔后Twitter因为架构变迁放弃了Cassandra的使用，再到后面使用Cassandra的一些大公司相继出现一些问题，导致Cassandra最近一直不温不火。此次在实时URL抓取服务SpiderDuck中，Twitter使用了Cassandra来存储重要的metadata信息，相信对各位持观望态度的同学又是一记强心针。

SpiderDuck的详细介绍，可以参见原文：engineering.twitter.com

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

博客等级

码龄15年

82
原创

6
点赞

26
收藏

71
粉丝

关注

私信

热门文章

分类专栏

最新评论

循环队列(circular queue)
lyl00982: 你这个程序报错呢
浏览器如何工作
和平world: 我去，这博客就是专业。请问咱们都知道每个浏览器都有自己的类库，每种浏览器对表单的解释都不相同，这也是为什么做B\S的时候需要考虑兼容性我的问题是从哪里查看各种浏览器的类库啊？
浅谈WebKit之JavaScriptCore/V8篇
谭海燕: JavaScriptCore V8性能测试对比： http://www.fenesky.com/blog/2014/05/25/jsc-v8-performance.html
hadoop 0.23 HDFS的搭建与配置
阿里巴巴11111: 你好：我理解为你配置了联邦server是h1-1和h1-2 那么h1-1和h1-2都作为name node;如果h1-1宕掉，整个集群也可用，是不是？需要做什么动作不？
概率发生器（产生均匀和非均匀的0，1）
LoopJump: 貌似可以优化。例如n=4。长度为4的01串共有16个，其中4个概率为p1=p^3*(1-p)，6个概率为p2=p^2*(1-p)^2，4个概率为p3=p*(1-p)^3，所以可以构造4组，每组出现概率为p1+p2+p3。这样貌似可以显著减少放弃的概率。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。