如何解决python爬虫——遇到requests.get()访问得到418问题
在爬虫时候,通过requests.get()得到不正确的状态码:
4**:表示出错
- 403问题:服务器已经理解请求,但是拒绝执行它
- 418问题:网站的反爬程序返回的
其他HTTP状态码查找可以参考:
https://baike.baidu.com/item/HTTP%E7%8A%B6%E6%80%81%E7%A0%81/5053660?fr=aladdin#4_19
当我们在爬虫时候遇到418问题:
解决方法:
补充上headers: 目的是模拟浏览器,欺骗服务器,获取和浏览器一致的内容
代码修改为:
import requests
url ='https://book.douban.com/tag/小说'<