爬虫larbin的运行配置说明

原创 2012年03月31日 11:18:56

larbin的配置说明:(运行命令自不用再说了)

      Larbin的配置基本涉及到两个文件。Larbin.conf及Options.h 。larbin.conf进行一些简单的配置。修改此配置文件不需要重新编译larbin。但要修改options.h则需要重新编译。这个文件是你要larbin怎么做的设置文件非常重要。修改要重新编译生成新的larbin再运行。

    1.larbin.conf

         UserAgent : 客服端标识 当对其他网站抓取时被抓取的网站知道是什么抓取的。

        httpPort : 用于运行的http web服务器的端口号 (larbin运行时访问http://localhost:8081/ 设置为:httpPort 8081). 如果将端口号设为0 则不会启动web服务器。这允许larbin不作为单线程运行。通过这个查看爬行结果。

        inputPort :你要爬去的urls的端口。如果注释掉或设为0 则可能没有任何输入。如果通过手动或者程序提交爬去的urls则必须连接到计算机的TCP端口1976。即设为: inputPort 1076。可以添加爬行的url。

        pagesConnexions : 并行爬取网页的数量。根据自己的网络速度调解。如果超时的太多则要降低这个并行数量。

        dnsConnexions : 并行dns域名解析的数量。建议为10 。

        depthInSite :对一个站点爬取得深度 。

        noExternalLinks :不允许访问外部连接。如果设置则只可访问同一HOST的连接。

        waitDuration :访问同一服务器的时间间隔。不可低于30s。建议60s,也不会慢。

        proxy :是否用代理连接,是则要设置. 可以不用代理就不要用代理连接,用代理很慢,也可能不适合于代理特别是带有缓存的。

        StartUrl : 开始爬取得url. 如:StartUrl  http://slashdot.org/

        limitToDomain : 这选项可用则不可以爬行指定的特殊域名。设置方式:limitToDomain .fr .dk end 。则不允许爬行这些域名。

        forbiddenExtensions : 不想要的扩展名文件。一定不要禁止.html .htm larbin爬得即使它们。实际上指定禁止也一定是无效的。

                      用法:forbiddenExtensions .tar .gz .deb

   2.options.h

     1.选择输出模式 (不用则在前面注释去掉即可)

         #define DEFAULT_OUTPUT : 默认模式。 什么都不会输出,所以不要选择这个。

        #define SIMPLE_SAVE  :   简单保存。存在save/dxxxxxx/fyyyyyy文件中 每个目录下2000个文件。

        #define MIRROR_SAVE  :  镜像方式存储。按网页的层次存储。可以作为网页的字典。

        #define STATS_OUTPUT :  状态输出。在网页上进行状态表示。可以通过查看http://localhost:8081/output.html 查看结果。

        这些模式被定制在src/types.h中。自己可以在src/interf/useroutput.cc中定义自己的输出模式。

     2.特定查询

        设定此模式是查询特定的文件,必须定义两个参数。

        #define SPECIFICSEARCH :设置特定的查询。

        #define contentTypes ((char *[]) { "audio/mpeg", NULL }) :内容类型。

        #define privilegedExts ((char *[]) { ".mp3", NULL })  :文件扩展。 用于查询速度 不涉及类型 类型由上一个决定

        设置完要设置特定文件的管理

        #define DEFAULT_SPECIFIC :默认管理方式。 作为html有限制除了被解析。

        #define SAVE_SPECIFIC :存储特定文件。 允许将文件存储在硬盘上  文件可以很大在src/types.h 可以具体设置。

        #define DYNAMIC_SPECIFIC :动态存储模式。对于较大的文件动态的分配buffer。

        可以通过"src/fetch/specbuf.cc" and "src/fetch/specbuf.h" 定义特定文件的管理方式。

     3. 你要爬虫做什么

          #define FOLLOW_LINKS: 不继续子链接。不设置此项则html页不被解析链接也不会爬子链接。通过输入系统添加url时很有用

        #define LINKS_INFO :每个网页中包含的子链接的列表。在"useroutput.cc" 用page->getLinks() 访问此信息。

        #define URL_TAGS:url标签。设置此项url有一个int(默认为0)。使用输入系统统时应该给定一个int。可以通过其获取url。可以重定向。

        #define NO_DUP: 不允许重复。如果设置则遇到相同网页但已遇到过时则不管。

        #define EXIT_AT_END :结束退出。没有url可爬取时是否退出。设置则退出。

        #define IMAGES:抓取网页中的图片。设置了此项则要更新larbin.conf中禁止项。

        #define ANYTYPE:抓取任何类型网页不管其的类型。设置要更新larbin.conf。

        #define COOKIES:要larbin管理cookies。只简单实现但很有用。

  4. 其他选项说明

     0 : yes ; 1 : no ; 2 : NO ! :选项参数 0要所有,1不要含有?或=的,2禁止包含通配符的。

        #define CGILEVEL 1:定于选项及其参数。用于对爬行的url的限制。<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" />

        #define MAXBANDWIDTH 200000: larbin使用的带宽大小。不设置则不限带宽。

       #define DEPTHBYSITE :当url链接到其他站点时新rul的深度是已被初始化的。

  5.效率和特征

        #define THREAD_OUTPUT:是否为输入制定一个专用线程。当你在useroutput.cc定义自己的代码时必须设置此项。

        #define RELOAD:重启位置记录表。设置此项时可以从上次终止处继续爬取。使用-scratch 选项从上次结束处重启。

  6. Larbin怎样工作

             #define NOWEBSERVER:不启动服务器。不运行线程时很有用

             #define GRAPH:是否在状态也使用柱状图。

             #define NDEBUG:不启动调试信息。

             #define NOSTATS:不启动状态输出。

             #define STATS:启动状态输出。运行时每个一段时间几秒吧就会输出抓取的状态。

             #define BIGSTATS:在标准输出上显示每个被抓去的网页名字。会降低larbin速度。

             #define CRASH:用于报告严重的bugs用。以make debug模式编译时使用。    

        这个基本是我对官网上配置的翻译。呵呵。。翻译的太差了。不翻译过来看着原配置文件感觉太乱了不知道是什么东东。

爬虫larbin运行过程

原文链接:http://hi.baidu.com/%BD%AB%D6%AE%B7%E7_%BE%B2%D6%AE%D4%A8/blog/item/86ff00d096f7cb26960a16bb.ht...
  • zkjscut
  • zkjscut
  • 2012年03月18日 16:41
  • 302

开源网络爬虫Larbin的安装及配置

大概用了两天的时间用来安装和配置Larbin。总体来说,关于使用和配置larbin的资料还是有很多的,但在安装和配置过程中,我还是遇到了点问题。不过,终于,问题被解决了,larbin能帮我爬东西了! ...

开源网络爬虫Larbin的安装及配置

http://www.cnblogs.com/sunada2005/archive/2013/05/07/3064847.html 开源网络爬虫Larbin的安装及配置 大概用...
  • zds05
  • zds05
  • 2013年05月29日 16:18
  • 836

hadoop学习过程-2013.08.29--爬虫larbin安装、配置、使用

安装 uname -a ### 输出:   "Linux vmDeb 3.2.0-4-686-pae #1 SMP Debian 3.2.46-1 i686 GNU/Linux" apt-get in...
  • prg1986
  • prg1986
  • 2013年08月30日 10:47
  • 598

开源爬虫larbin安装配置指南

larbin是一个开源的爬虫,有几个优点:首先抓取效率很高,其次支持对网站进行镜像存储。不过正因为效率高,使用larbin时要非常注意,不要把硬盘搞爆。 larbin使用c++开发的,如果需要pyt...
  • lzt1983
  • lzt1983
  • 2012年09月14日 20:23
  • 5851

larbin的编译 运行+三个配置文件阅读

larbin-2.6.3.tar.gz 官网地址:http://larbin.sourceforge.net/index-eng.html 首先解压安装包 tar -xvzf larbin-2....

爬虫larbin主函数说明

int main (int argc, char *argv[]) { global glob(argc, argv); //创建一个global对象 亦即是初始化所要使用到的所有变量及初始配置。这...

爬虫Larbin解析(一)——Larbin配置与使用

转自:http://www.cnblogs.com/kaituorensheng/p/3676851.html 介绍功能:网络爬虫开发语言:c++开发者:Sébastien Ailleret(法国)...

从Larbin看互联网爬虫设计

  • 2008年03月04日 12:17
  • 24KB
  • 下载

爬虫larbin在Ubuntu下的编译

转自:http://hi.baidu.com/%BD%AB%D6%AE%B7%E7_%BE%B2%D6%AE%D4%A8/blog/item/9ee8c3600b6fe7720d33fa27.html...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:爬虫larbin的运行配置说明
举报原因:
原因补充:

(最多只允许输入30个字)