[知了开发]“知了”优化 - WebMagic 调优

本文探讨了在WebMagic框架下实现增量爬虫的策略,包括使用数据库存储URL并优化索引,以及如何在WebMagic中进行定制以适应需求。同时,提到了爬虫停止的条件判断和资源释放,以及反爬策略,针对TCP close-wait状态的处理和服务器配置调整。
摘要由CSDN通过智能技术生成

在之前的博客中也分析了WebMagic的基本所有的主要代码,在我们的项目中也遇到了很多由于WebMagic的问题而导致正个服务器性能大范围的下降,那么今天说说这些bug

  1. 增量爬虫
  2. 爬虫停止
  3. 反爬

增量爬虫

我们的应用需要在每天额固定时间启动爬虫,然后去爬,很明显我们需要从昨天的爬取结果中增量爬虫,这个增量是相对于昨天,而不是一次爬虫中的过程中那么怎么存储昨天爬取的url呢。

使用数据库

很明显我们能够在pipeline中存储url,然后通过Mysql的unique来解决,那么我们直接insert就好了。那我们看看数据库中的url都长什么样子

http://club.xdnice.com/forum.php?mod=viewthread&tid=1410423&extra=page%3D1%26filter%3Dsortid%26sortid%3D252
http://club.xdnice.com/forum.php?mod=viewthread&tid=1410561&extra=page%3D1%26filter%3Dsortid%26sortid%3D252
http://club.xdnice.com/forum.php?mod=viewthread&tid=1410558&extra=page%3D1%26filter%3Dsortid%26sortid%3D252
http://club.xdnice.com/forum.php?mod=viewthread&tid=1410496&extra=page%3D1%26filter%3Dsortid%26sortid%3D252
http://club.xdnice.com/forum.php?mod=viewthread&tid=1410287&extra=page%3D1%26filter%3Dsortid%26sortid%3D252
http://club.xdnice.com/forum.php?mod=viewthread&tid=1410546&extra=page%3D1%26filter%3Dsortid%26sortid%3D252
http://club.xdnice.com/forum.php?mod=viewthread&tid=1410430&extra=page%3D1%26filter%3Dsortid%26sortid%3D252
http://club.xdnice.com/forum.php?mod=viewthread&tid=1410535&extra=page%3D1%26filter%3Dsortid%26sortid%3D252
http://club.xdnice.com/forum.php?mod=viewthread&tid=1410488&extra=page%3D1%26filter%3Dsortid%26sortid%3D252
http://club.xdnice.com/forum.php?mod=viewthread&tid=1410542&extra=page%3D1%26filter%3Dsortid%26sortid%3D252
http://club.xdnice.com/forum.php?mod=viewthread&tid=1410005&extra=page%3D1%26filter%3Dsortid%26sortid%3D252
http://club.xdnice.com/forum.php?mod=viewthread&tid=1410541&extra=page%3D1%26filter%3Dsortid%26sortid%3D252
http://club.xdnice.com/forum.php?mod=viewthread&tid=1410394&extra=page%3D1%26filter%3Dsortid%26sortid%3D252
http://club.xdnice.com/forum.php?mod=viewthread&tid=1405225&extra=page%3D1%26filter%3Dsortid%26sortid%3D252
http://club.xdnice.com/forum.php?m
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值