解决PYTHON爬取:RESPONSE.STATUS_CODE为418、403 问题

最新推荐文章于 2024-06-05 10:42:20 发布

小火2016

最新推荐文章于 2024-06-05 10:42:20 发布

阅读量4.2k

点赞数 4

分类专栏： python 爬虫

本文链接：https://blog.csdn.net/weixin_38403702/article/details/107719493

版权

本文介绍了如何处理Python爬虫过程中遇到的418和403响应状态码问题。针对418状态码，通过添加请求头中的User-Agent字段来解决。对于403状态码，尝试添加Cookies，或者使用session和post方法进行登录操作。文中还提到了登录后爬取内容的方法和注意事项。

摘要由CSDN通过智能技术生成

python爬取豆瓣网站电影：
url = ‘https://movie.douban.com/?start=0&filter=’

import requests

url = 'https://movie.douban.com/top250?start=0&filter='

res =requests.get(url)

print(res.status_code)

响应状态：418

正常返回状态应该是 200

问题解决参考链接：

requests状态码集合：
https://www.cnblogs.com/yitiaodahe/p/9216387.html
418：（‘im_a_teapot’, ‘teapot’, ‘i_am_a_teapot’）
418啥意思？
https://blog.csdn.net/weixin_43902320/article/details/104342771
就是你爬取的网站有反爬虫机制，我们要向服务器发出爬虫请求，需要添加请求头：headers
为什么加及如何加请求头headers?
https://blog.csdn.net/ysblogs/article/details/88530124?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task
网页右键“检查元素”，在图示页面找headers内容：
——Network
—— Doc(如果没有出现这一排，可先按F5刷新一下)
——Name下是你搜索的页面

关注

专栏目录