colly Crawler 配置 ##9

Crawler  配置

Colly的默认配置是为在一个作业中抓取少量站点而优化的。如果您想爬行数百万个站点,这种设置不是最好的。以下是一些调整:

使用持久存储后端

默认情况下,Colly将cookie和访问过的url存储在内存中。您可以用任何自定义后端替换内置的内存存储后端。详情请点击这里

 

使用异步处理递归调用的长时间运行的工作

默认情况下,Colly在请求未完成时阻塞,因此递归调用Collector。回调访问产生不断增长的堆栈。收集器。Async = true这是可以避免的。(不要忘记在async中使用c.Wait()。)

 

禁用或限制连接keep-alive

Colly使用HTTP keep-alive来提高抓取速度。它需要打开文件描述符,因此长时间运行的作业很容易达到max-fd限制。

HTTP Keep-alive可以通过以下代码禁用:

c := colly.NewCollector()
c.WithTransport(&http.Transport{
    DisableKeepAlives: true,
})

  

转载于:https://www.cnblogs.com/liujie-php/p/11571153.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值