很多时候通过requests请求网页内容的过程中得到不正确的状态码,比如今天我在爬取豆瓣读书评论的过程中,import requests 之后,通过get获取网页内容,但是返回内容为空。(操作环境为spyder中的console)
通过查询资料,原来要设定headers!! 按照下面链接的过程我设置好headers!
python爬虫requests过程中添加headers - 老和尚不念经 - 博客园www.cnblogs.com如果是chrome浏览器,可以通过以下方式查看header,:
在Chrome浏览器中查看HTTP报文的头部信息_电脑软件-百度经验jingyan.baidu.com输出get到的网页内容!!finally,cheers!
5行代码获取网页内容我调试了也就99次吧 不多不多,希望你能比我快!