larbin mysql_Larbin的使用--配置

一、配置larbin.conf文件

Larbin.conf是larbin的基本配置文件,里面有很多的配置选项,以下我只列举我经常用到的一些。

httpPort

8081

利用web查看时的端口号

pagesConnexions

100

并行链接的最大数目

pagesConnexions

100

并行链接的最大数目

depthInSite

5

爬虫的深度

waitDuration

30

连续两次访问统一个服务器的间隔(以秒为单位)

limitToDomain

tianya.cn end

域名的限制,可以加入多个,以end结尾

二、配置option.h

//#define DEFAULT_OUTPUT do nothing...

#define SIMPLE_SAVE //save in files named save/dxxxxxx/fyyyyyy

//#define MIRROR_SAVE//save in files (respect sites hierarchy)//#define STATS_OUTPUT//do some stats on pages

option.h我用到的主要配置就是output module 。Larbin有四种output module:default、simple、mirror和stats。

default:不会保存任何的东西。

simple: 简单的把html文件按域名为文件夹分开,文件以fxxxx命名。xxxx为编号,还会有一个index文件,建议编号和url的对应。

mirror: 把html文件按照它在网站上的结构保存。如http://www.cnblogs.com/lovesaber/archive/2012/02/28/2371618.html则会保存在文件夹cnblogd.com/lavesaber/archive/2012/02/28目录下,且文件名为2371618.html。

配置好上面的一些参数后,就可以输入./larbin运行larbin了。运行后可以通过web进行查看。在浏览器中输入http://localhost:8081/可以查看现在的爬虫状态,如下图。

9ba189f567339623eb1036dfddfe7f33.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值