抓虾网的架构

最新推荐文章于 2024-11-02 12:42:04 发布

lxzo123

最新推荐文章于 2024-11-02 12:42:04 发布

阅读量1k

点赞数

分类专栏：系统架构文章标签： google 存储系统 rss javascript 算法搜索引擎

系统架构专栏收录该内容

15 篇文章 0 订阅

订阅专栏

原文：http://blog.csdn.net/smarttony/article/details/5811890

抓虾网是一个提供RSS在线阅读服务的网站，由徐易客与谌振宇在2005年创办，我使用抓虾将近两个月的时间，后来由于抓虾不能抓取一些国外的RSS(Google Reader能抓取)，同时RSS的更新速度也比较慢，同时UI/UE也比不上鲜果，甚至比不上有道阅读，因此后来放弃了抓虾。到现在为止一直使用Google Reader，当然Google Reader也有它的缺点，比如不能修改文件夹的名称，当然这个不是很重要，以后应该会改进的，其它方面还算都不错。

抓虾现在后端服务主要用C++，前端用PHP(就是采用比较流行的LAMP组合，具体可以看这儿)和JavaScript，也用了Python来做一些多个模块结合的工作。

下面这些引用自抓虾的官方博客上，他们自己开发了很多系统，不知道为什么没有用开源系统

存储：ZStorage,抓虾自己开发了分布式的存储系统，用来存储海量数据，抓虾的文章数已经接近了7亿篇，每天还在疯狂增长，数据量早就超过了 1 TB。感谢大牛工程师CL为我们带来稳定的存储系统。
抓取：ZSpider,400万博客、接近7亿篇文章背后，是抓虾强大的分布式Spider，融合几十种抓取策略，多种页面分析算法与内容抽取算法，无论是普通网页、RSS、论坛页面甚至JS脚本，都可以应付自如。当然，这个spider也是由抓虾工程师用一行一行代码写出来的。
搜索：有了这么多数据，怎么找呢？ZIndex，三个工程师用一个月的时间，开发了抓虾的分布式、高效灵活的检索系统，性能可比主流搜索引擎，为抓虾用户提供TB 级海量数据的检索。
缓存：抓虾自己开发的分布式缓存 ZCache，命中率只能用一个字来形容——舒服。这么精彩的作品，感谢大牛工程师dasheng。

用什么技术不是最重要的，不管是你自己开发的也好，是用开源的系统也好(提前是要在高并发下不要出现什么大的问题)，最终的目的是为用户带来有价值的服务，然后再在这个基础上考虑盈利模式。由于Google Reader目前没有盈利的压力，而且它的背后有着Google强大的团队的支撑，Google Reader会越来越好，而且用户转换RSS的成本很低(也就是简单的OPML导入及导出，非常简单的)，因此抓虾如果再不把用户体验做好，用户可能会逐渐转换到Google Reader或鲜果，甚至有可能转换到有道阅读、QQ阅读空间、搜狐闪电阅读。