近期做的都是迭代项目,代码基本每个月都可以正常运行,只是如果突然加速,会导致某些网站数据拿取不到。故特地做一下总结,主要目的是为了提醒我自己:
1.爬虫迭代项目最好控制匀速爬取,不要突然大量提速,容易导致爬虫被识别到
2.代码的爬虫行为被网站检测到后,可能1-2小时左右,无法从网站拿取到数据,此时不要着急修改代码,可以先等上2小时候后再运行爬虫
基本每次突然大量提速,一些本来反爬比较严格的网站就会检测到我的异常行为,导致我的代码无法运行。但登上2小时后基本都可以正常爬取。少数情况需要修改代码!