在爬虫开发时,我们时常会遇到各种BUG各种问题,下面是我初步汇总的一些报错和解决方案。
在以后的学习中,如果遇到其他问题,我也会在这里进行更新。
各位如有什么补充,欢迎评论区留言~~~
问题:
IP被封,或者因访问频率太高被拦截???
解决方案之一:
使用代理IP即可。
问题:
正确使用XPath之后并没有输出???
解决方案之一:
XPath只能提取未注释的代码,改用正则表达式即可。
问题:
容易被反爬搞死???
解决方案之一:
headers中都要带上User-Agent,而Cookie能不带则不带。
报错:
UTF-8不能处理字节???
解决方案之一:
在headers中加入Cookie即可输出正常的HTML。
报错:
‘ gbk ’不能处理‘ \xa0 ’ ???
解决方案之一:
with open(&