问题1:初步解决响应状态418
python爬取豆瓣网站电影:
url = ‘https://movie.douban.com/?start=0&filter=’
import requests
url = 'https://movie.douban.com/top250?start=0&filter='
res =requests.get(url)
print(res.status_code)
响应状态:418
正常返回状态应该是 200
问题解决参考链接:
-
requests状态码集合:
https://www.cnblogs.com/yitiaodahe/p/9216387.html
418:(‘im_a_teapot’, ‘teapot’, ‘i_am_a_teapot’) -
418啥意思?
https://blog.csdn.net/weixin_43902320/article/details/104342771
就是你爬取的网站有反爬虫机制,我们要向服务器发出爬虫请求,需要添加请求头:headers -
为什么加 及 如何加 请求头headers?
https://blog.csdn.net/ysblogs/article/details/88530124?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task
网页右键“检查元素”,在图示页面找headers内容:
——Network
—— Doc(如果没有出现这一排,可先按F5刷新一下)
——Name下是你搜索的页面