Larbin 爬虫工具介绍

原创 2007年09月18日 21:58:00

【1】 larbin的简介
      larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人 Sébastien Ailleret 独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。

 

 

Larbin只是一个爬虫,也就是说larbin只抓取网页,至于如何parse的事情则由用户自己完成。另外,如何存储到数据库以及建立索引的事情 larbin也不提供。

latbin最初的设计也是依据设计简单但是高度可配置性的原则,因此我们可以看到,一个简单的larbin的爬虫可以每天获取500万的网页,实在是非常高效。

【2】Larbin的性能特征: 高效, 基本上一个小时爬 3个G 的网页。差不多20万的页面; url 解析: 200万-300万/小时

【3】larbin 的作用
 简单介绍一下 larbin 的功能和实际应用。
1. larbin 获取单个、确定网站的所有联结,甚至可以镜像一个网站。
2. larbin建立 url 列表群,例如针对所有的网页进行 url retrive后,进行xml的联结的获取。或者是 mp3 。
3. larbin 定制后可以作为搜索引擎的信息的来源(例如可以将抓取下来的网页每2000一组存放在一系列的目录结构里面)。

总归,larbin应当是一个被广大搜索引擎爱好者应当引起注意的一个产品,虽然其功能逐渐被 Nutch 所接受和替代,但是其在爬虫上的优美设计的确值得称道。


 
版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

larbin 爬虫开发工具

  • 2011-02-22 13:35
  • 130KB
  • 下载

爬虫larbin在Ubuntu下的编译

转自:http://hi.baidu.com/%BD%AB%D6%AE%B7%E7_%BE%B2%D6%AE%D4%A8/blog/item/9ee8c3600b6fe7720d33fa27.html...

网络爬虫larbin完整源程序

  • 2010-11-04 16:37
  • 130KB
  • 下载

hadoop学习过程-2013.08.29--爬虫larbin安装、配置、使用

安装 uname -a ### 输出:   "Linux vmDeb 3.2.0-4-686-pae #1 SMP Debian 3.2.46-1 i686 GNU/Linux" apt-get in...

爬虫larbin主函数说明

int main (int argc, char *argv[]) { global glob(argc, argv); //创建一个global对象 亦即是初始化所要使用到的所有变量及初始配置。这...

从Larbin看互联网爬虫设计

互联网是一个庞大的非结构化的数据库,将数据有效的检索并组织呈现出来有着巨大的应用前景,尤其是类似RSS的以XML为基础的结构化的数据越来越多,内容的组织方式越来越灵活,检索组织并呈现会有着越来越广泛的...

开源爬虫larbin分析

1. larbin简介(百度百科)     larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人Sébastien Ailleret独立开发,用c++语言实现。larbin目的是能够跟踪页面的...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)