在之前的博客中也分析了WebMagic的基本所有的主要代码,在我们的项目中也遇到了很多由于WebMagic的问题而导致正个服务器性能大范围的下降,那么今天说说这些bug
- 增量爬虫
- 爬虫停止
- 反爬
增量爬虫
我们的应用需要在每天额固定时间启动爬虫,然后去爬,很明显我们需要从昨天的爬取结果中增量爬虫,这个增量是相对于昨天,而不是一次爬虫中的过程中那么怎么存储昨天爬取的url呢。
使用数据库
很明显我们能够在pipeline中存储url,然后通过Mysql的unique来解决,那么我们直接insert就好了。那我们看看数据库中的url都长什么样子
http://club.xdnice.com/forum.php?mod=viewthread&tid=1410423&extra=page%3D1%26filter%3Dsortid%26sortid%3D252
http://club.xdnice.com/forum.php?mod=viewthread&tid=1410561&extra=page%3D1%26filter%3Dsortid%26sortid%3D252
http://club.xdnice.com/forum.php?mod=viewthread&tid=1410558&extra=page%3D1%26filter%3Dsortid%26sortid%3D252
http://club.xdnice.com/forum.php?mod=viewthread&tid=1410496&extra=page%3D1%26filter%3Dsortid%26sortid%3D252
http://club.xdnice.com/forum.php?mod=viewthread&tid=1410287&extra=page%3D1%26filter%3Dsortid%26sortid%3D252
http://club.xdnice.com/forum.php?mod=viewthread&tid=1410546&extra=page%3D1%26filter%3Dsortid%26sortid%3D252
http://club.xdnice.com/forum.php?mod=viewthread&tid=1410430&extra=page%3D1%26filter%3Dsortid%26sortid%3D252
http://club.xdnice.com/forum.php?mod=viewthread&tid=1410535&extra=page%3D1%26filter%3Dsortid%26sortid%3D252
http://club.xdnice.com/forum.php?mod=viewthread&tid=1410488&extra=page%3D1%26filter%3Dsortid%26sortid%3D252
http://club.xdnice.com/forum.php?mod=viewthread&tid=1410542&extra=page%3D1%26filter%3Dsortid%26sortid%3D252
http://club.xdnice.com/forum.php?mod=viewthread&tid=1410005&extra=page%3D1%26filter%3Dsortid%26sortid%3D252
http://club.xdnice.com/forum.php?mod=viewthread&tid=1410541&extra=page%3D1%26filter%3Dsortid%26sortid%3D252
http://club.xdnice.com/forum.php?mod=viewthread&tid=1410394&extra=page%3D1%26filter%3Dsortid%26sortid%3D252
http://club.xdnice.com/forum.php?mod=viewthread&tid=1405225&extra=page%3D1%26filter%3Dsortid%26sortid%3D252
http://club.xdnice.com/forum.php?m