如何解决python爬虫requests.get()遇到的418问题

最新推荐文章于 2025-03-04 14:04:22 发布

Rong~

最新推荐文章于 2025-03-04 14:04:22 发布

阅读量1w

点赞数 6

分类专栏： Python 文章标签： python http

本文链接：https://blog.csdn.net/weixin_43144769/article/details/105715728

版权

如何解决python爬虫——遇到requests.get()访问得到418问题

在爬虫时候，通过requests.get()得到不正确的状态码：
4**：表示出错

403问题：服务器已经理解请求，但是拒绝执行它
418问题：网站的反爬程序返回的
其他HTTP状态码查找可以参考：
https://baike.baidu.com/item/HTTP%E7%8A%B6%E6%80%81%E7%A0%81/5053660?fr=aladdin#4_19

当我们在爬虫时候遇到418问题：
在这里插入图片描述
解决方法：
补充上headers: 目的是模拟浏览器，欺骗服务器，获取和浏览器一致的内容
代码修改为：

import requests

url ='https://book.douban.com/tag/小说'<

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Rong~

关注关注

6
点赞
踩
25

收藏

觉得还不错? 一键收藏
3
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Python:爬取数据出现response.status_code为418解决方法

码农研究僧的博客

09-23

7075

目录前言1. 原理2. 代码前言在进行数据爬取的时候，出现如下错误，一直显示response.status_code为418 1. 原理执行程序的时候一直返回418，最根本的原因是因为网站的反爬程序返回的结果查询溯源，其解释权为 418 I’m a teapot The HTTP 418 I’m a teapot client error response code indicates that the server refuses to brew coffee because it is a

初次接触python爬虫requests.get涉及的UA（浏览器标识信息）问题

最新发布

qq_57179696的博客

03-04

1303

Requests库是一个功能强大且易于使用的HTTP客户端库，特别适合用于发送HTTP请求和处理响应。我们将通过解析requests.get和requests.post的核心参数、讲解超时设置与异常处理、探讨文件下载与流式传输，并通过一个批量下载图片的案例来加深理解。

python爬虫----- Response [418]

d_eng_的博客

05-27

1571

错误代码418 修改之前的代码，无信息打印及错误信息提示，打印res，获取错误代码418： import requests import bs4 def down_douban_moviename(): res = requests.get("https://movie.douban.com/top250") soup = bs4.BeautifulSoup(res.text,"html.parser") targets = soup.find_all("div",class_="

python爬取网页时返回“HTTP Error 418：”

weixin_46545887的博客

10-24

6558

HTTP状态码418是一个非标准的HTTP状态码，被定义为"I’m a teapot"（我是一个茶壶）。这个状态码源自1998年的一个愚人节笑话，被写入了RFC 2324，Hyper Text Coffee Pot Control Protocol（超文本咖啡壶控制协议）。在实际的Web开发中，有些网站可能会使用这个状态码作为反爬虫策略的一部分。当服务器返回418状态码时，可能是因为服务器认为你的请求是一个爬虫，而不是一个正常的用户请求。

爬虫：报错418

天玑的博客

12-06

3106

通过设置User-Agent头部信息为一个常见的浏览器User-Agent，如上述的Mozilla/5.0，你让请求看起来像是来自一个普通的浏览器，而不是爬虫。当你在进行网络爬虫时，有些网站会根据请求的User-Agent头部信息来判断是否是一个合法的请求。100 Continue：服务器已接收到请求的初始部分，并且客户端应继续发送其余部分。400 Bad Request：服务器无法理解客户端的请求，可能是语法错误等。201 Created：请求已经被实现，并且在服务器上创建了一个新的资源。

Python爬虫入门教程：超级简单的Python爬虫教程.pdf

03-20

### Python爬虫入门教程知识点详解 #### 一、理解网页结构在进行Python爬虫开发之前，首先要了解网页的基本构成。网页通常包含三个主要部分：HTML（超文本标记语言）、CSS（层叠样式表）以及JavaScript（一种常用...

解决python爬虫requests.exceptions.SSLError: HTTPSConnectionPool(host=‘XXX‘, port=443)问题

echohye的博客

01-04

4071

requests.exceptions.SSLError: HTTPSConnectionPool(host='img001.arc-theday.com', port=443): Max retries exceeded with url: /images/comic/193/384543/1557910165o_6UxaVFXV-tqq2f.jpg (Caused by SSLError(SSLError(1, '[SSL: INVALID_SESSION_ID] invalid session id

Python——爬虫用requests.get获取网页内容为空 ’ ’

你隔壁的小王的博客

01-03

1万+

import requests result=requests.get("http://data.10jqka.com.cn/financial/yjyg/") result 输出结果：表示成功处理了请求，一般情况下都是返回此状态码；报200代表没问题继续运行，发现返回空值，在请求网页爬取的时候，输出的text信息中会出现抱歉，无法访问等字眼，这就是禁止爬取，需要通过反爬机制去解决这个问题。headers是解决requests请求反爬的方法之一，相当于我们进去这个网页的服务器本...

python状态码418_python爬取网页时返回http状态码HTTP Error 418

weixin_39621860的博客

12-17

820

问题：urllib.error.HTTPError: HTTP Error 418:问题描述：当我使用Python的request爬取网页时返回了http状态码为418,错误描述：经过网上查询得知，418的意思是被网站的反爬程序返回的，网上解释为，418 I‘m a teapotThe HTTP 418 I‘m a teapot client error responsecode indicate...

【解决办法】爬虫 python 抓取网页数据时，状态码为418

qq_41654485的博客

04-06

1574

import requests headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'} r = requests.get( '你要抓取数据的链接' , headers=headers) r.status_code r.text 只需加上头部信息【橙色显示两行代码】即可， .

python_code_418

weixin_33962923的博客

04-18

298

1. print for x in range(1,11) if x % 2 == 0 输出1-10内的偶数转载于:https://www.cnblogs.com/njuzwr/p/4437666.html

【python】爬虫 404 200 961 418 都啥意思

DFminer

05-08

555

【python】爬虫 404 200 961 418 都啥意思

Python requests 抓取网页状态返回418(亲测)

gb4215287的博客

06-28

1409

是被网站反爬程序返回的解决：添加请求头headers信息 import requests headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'} res = requests.get(url,headers=headers) ——————————————...

关于反爬虫报错418处理

Xiang_lhh的博客

04-07

6476

如果正常爬虫 import requests import time from bs4 import BeautifulSoup url='https://blog.csdn.net/Xiang_lhh/article/details/104940609' resp=request.get(url) bs=BeautifulSoup(resp,'lxml')#使用beautifulsoup解析返回...

python爬虫——requests状态码418

面包猎人

11-09

6190

问题描述使用requests库爬取某个豆瓣电影评论，status_code码为418 根据官方文档显示，status_code为200时表示get成功。查了一下官方github的issue（像“愉快地讨论”问题）以及其他资料，发现418就是爬取的网站有反爬取机制，然后我就被KO了～解决方案方法很easy～就是添加请求header的UserAgent防止被反爬虫识别。获取本机UserAgent信息，由于我的浏览器是Chrome，直接在浏览器地址栏添加chrome://version/即可查

使用request.get()请求发生418错误

weixin_52331696的博客

04-19

1016

解决：添加相应的请求头，去模拟真实的游览器，欺骗服务器，获取一直内容。原因：网站反爬虫机制返回的。

dirver.get和requests.get

10-11

`driver.get()` 和 `requests.get()` 是两个不同的库中用于发起HTTP GET请求的方法。 1. **driver.get()**[^4]: 这通常是在Selenium框架中使用的，它是一个Web浏览器自动化工具。当你调用`driver.get(url)`时，它会打开指定的URL（网页地址），并将控制权交给浏览器加载页面。这个方法主要用于模拟真实用户浏览网站的行为，常用于测试或数据抓取。 ```python from selenium import webdriver driver = webdriver.Chrome() driver.get('https://www.example.com') # 打开example.com ``` 2. **requests.get()**[^5]: 这是Python的requests库中的方法，一个非常流行的HTTP客户端库。与Selenium不同，requests库不依赖于实际浏览器，而是发送HTTP请求并直接处理响应。它非常适合API接口的数据获取或简单的网络爬虫任务。 ```python import requests response = requests.get('https://api.example.com/data') data = response.json() # 假设返回的是JSON数据 ```