1.爬取网页报错提示状态码404,可是在浏览器里可以打开网页
这种情况是服务器同时返回200与404的状态码,抓包可以看到有404与200。浏览器访问时,有200不会影响访问,而爬虫程序获取该url的回执状态码404与200,遇到有404,则抛出了HTTP Error 404: Not Found
网上解答:抓包将状态码200的cookie值贴到代码的headers里,然后urlopen(req)过去就ok
我的方法:判断是404错误码的同时也判断页面含有关键词。
这种情况是服务器同时返回200与404的状态码,抓包可以看到有404与200。浏览器访问时,有200不会影响访问,而爬虫程序获取该url的回执状态码404与200,遇到有404,则抛出了HTTP Error 404: Not Found
网上解答:抓包将状态码200的cookie值贴到代码的headers里,然后urlopen(req)过去就ok
我的方法:判断是404错误码的同时也判断页面含有关键词。