十一、学习爬虫框架WebMagic(七)---实战小技巧

(一)Site.sleepTime的设置问题
  Webmagic 框架默认的休眠时间为5000(5s),我看网上一般设置为1000(1s),经实际验证,若休眠时间过短,在多线程访问页面时,会报大量的403错误,所以这里在爬取线程过多时,不妨就用框架默认的休眠时间。

(二)page.setSkip()
  Webmagic通过 ProcessorPipeline 组件,将爬取页面爬取之后的业务逻辑进行了分离,若需要业务处理的 Page,则进入 Pipeline 中,无需业务处理的 Page,则可通过设置 page.setSkip(),来避免进入 Pipeline 中。

(三)setCycleRetryTimes(int cycleRetryTimes)和setRetryTimes(int retryTimes)区别

  • setCycleRetryTimes(int cycleRetryTimes):下载失败,会重新尝试
  • setRetryTimes(int retryTimes):暂时并为发现会有什么作用!!!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值