网站架构学习笔记--Tailrank架构

最新推荐文章于 2024-10-12 09:10:18 发布

java_veteran

最新推荐文章于 2024-10-12 09:10:18 发布

阅读量658

点赞数

文章标签： mysql mapreduce debian log4j java 数据库

来源：Todd Hoff的文章http://www.highscalability.com/tailrank-architecture-learn-how-track-memes-across-entire-blogosphere

Tailrank网站提供blog文章热点新闻跟踪服务，同时从8个月前开始许可其爬虫程序Spinn3r。
Tailrank要解决的是如何高效处理海量数据，及如何分析并精确索引其抓取的内容。

其要技术难点在于建立伸缩性好并高容错的分布式系统，目前实现了一个类似于Google的MapReduce的工具Task/Queue，
它是一个集中的队列服务器，用于分发任务给来请求的机器人。

技术平台

MySQL：Federated方式分布数据，待扩展成完全的sharded方式
Java
Linux(Debian)
Apache 2.0
Squid：服务95%的页面
存储：两个SATA驱动器，配置成RAID 0.
ServerBeach托管

系统规模

15台机器；
每小时索引 24M 的weblog和feed；
速度处理内容：以160~ 200M bps；
每月处理的内容：52TB；
当前数据库规模： 500G ;

MySQL使用情况

使用InnoDB引擎；
MySQL基于单核系统设计，从5.1开始才解决了多核系统下锁的问题。

已开源的代码

http://code.tailrank.com/lbpool：支持负载均衡的JDBC数据库连接缓冲池；
http://code.tailrank.com/feedparser：较好支持所有RSS版本的Java RSS/Atom解析器；
http://code.google.com/p/benchmark4j/：Java(及UNIX)下的性能分析工具；
http://code.google.com/p/spinn3r-client/：访问Spinn3r web service的客户端接口；
http://code.google.com/p/mysqlslavesync/：用于快速并某MySQL进行复制；
http://code.google.com/p/log5j/：基于log4j，实现printf格式的日志内容处理功能。

width="520" scrolling="no" height="60" frameborder="0" align="middle" src="http://steveyang.00bp.com/ads480.html" marginheight="0" marginwidth="0"> <script src="http://www.google-analytics.com/urchin.js" type="text/javascript"> </script> <script type="text/javascript"> _uacct = "UA-2977865-5"; urchinTracker(); </script>