一、配置larbin.conf文件
Larbin.conf是larbin的基本配置文件,里面有很多的配置选项,以下我只列举我经常用到的一些。
httpPort
8081
利用web查看时的端口号
pagesConnexions
100
并行链接的最大数目
pagesConnexions
100
并行链接的最大数目
depthInSite
5
爬虫的深度
waitDuration
30
连续两次访问统一个服务器的间隔(以秒为单位)
limitToDomain
tianya.cn end
域名的限制,可以加入多个,以end结尾
二、配置option.h
//#define DEFAULT_OUTPUT do nothing...
#define SIMPLE_SAVE //save in files named save/dxxxxxx/fyyyyyy
//#define MIRROR_SAVE//save in files (respect sites hierarchy)//#define STATS_OUTPUT//do some stats on pages
option.h我用到的主要配置就是output module 。Larbin有四种output module:default、simple、mirror和stats。
default:不会保存任何的东西。
simple: 简单的把html文件按域名为文件夹分开,文件以fxxxx命名。xxxx为编号,还会有一个index文件,建议编号和url的对应。
mirror: 把html文件按照它在网站上的结构保存。如http://www.cnblogs.com/lovesaber/archive/2012/02/28/2371618.html则会保存在文件夹cnblogd.com/lavesaber/archive/2012/02/28目录下,且文件名为2371618.html。
配置好上面的一些参数后,就可以输入./larbin运行larbin了。运行后可以通过web进行查看。在浏览器中输入http://localhost:8081/可以查看现在的爬虫状态,如下图。