爬虫Python报403或data为空问题

最新推荐文章于 2025-05-19 12:28:18 发布

原创最新推荐文章于 2025-05-19 12:28:18 发布 · 2.2k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫 #http #网络协议

Python 专栏收录该内容

5 篇文章

订阅专栏

本文详细介绍了如何在B站爬取数据时，正确使用cookie获取upstat信息，包括设置合适的User-Agent、Host和Cookie，以及遇到403错误的处理方法，提供了一个成功的请求示例和数据返回结果。

在爬取B站数据时，部分API是需要cookie才能获取数据的，没有携带则结果可能是code:403或

{"code":0,"message":"0","ttl":1,"data":{}}

比如upstat，需要将标头中的cookie放在爬虫中。

headers['User-Agent'] = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36'
headers['Host'] = 'api.bilibili.com'
headers['Cookie'] = "xxxxxxxxxxxx"
response = requests.get(api_path, stream=True, headers=headers)

结果正常

{'code': 0, 'message': '0', 'ttl': 1, 'data': {'archive': {'view': 270657}, 'article': {'view': 0}, 'likes': 45846}}

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

aGreySky

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Python爬虫requests返回值为空的解决方案

weixin_43178406的博客

05-24

3万+

本文主要介绍了requests返回值为空的解决方案，希望能对学习爬虫的同学们有所帮助。需要说明的是，该方案适合无需进行登录账户等其他操作就能通过浏览器看到网站内容的情况，而不适用更加复杂的场景。文章目录 1. 问题描述 2. 解决方案

python爬虫返回403错误？加了请求头+代理也解决不了＞＞看这

云霄IT的博客

02-15

1万+

【疑惑】：使用python的requests库发起get或post请求返回403代码错误，使用postman发起请求发现状态码竟然成功了。首先排除ip问题，ip有问题的话postman也访问不了。难道是headers出现了问题吗，通过对比发现也不是headers的问题。【解疑】：其实遇到这种情况大概率是遇到了“原生模拟浏览器 TLS/JA3 指纹的验证”，浏览器和postman都有自带指纹验证，而唯独requests库没有。这就让反爬有了区分人为和爬虫的突破口。2、使用 pyhttpx 库。

参与评论您还未登录，请先登录后发表或查看评论

Python哔哩哔哩爬虫报错403

qq_18362401的博客

11-16

3973

本文章参考于steff720的“Python爬虫如何搞定反扒的403”，在此表示感谢。学校最近给了个爬虫作业，作业要求用Python的写，按照了部分文章写了个乙站的爬虫。但访问网站获取视频时间的时候页面老是报403（权限错误）。下面是出问题的部分代码： import requests response2 = requests.get(apiurl,apiheaders) res2 ...

网页报403错误，爬虫解决403禁止访问错误方法

weixin_67757219的博客

02-09

2396

抓取网页报403错误，爬虫解决403禁止访问错误方法一般就是被禁止了，加上对应的header参数就可以了，要具体分析正常访问时需要那些头信息其中User-Agent是浏览器特有的属性，通过浏览器F12调试器就可以看到。获取浏览器类型的User-Agent信息，在自定义函数中需要写出自己的Host,Referer,GET信息等，一般就是被禁止了，加上对应的header参数就可以了，要具体分析正常访问时需要那些头信息。解决这几个问题，就可以顺利访问了，不再出现403禁止访问了。

python 爬虫使用requests模拟请求后台，返回为空问题

qq_43036532的博客

01-14

5765

个人在爬虫时遇到的问题，在此记录一下看看请求时携带 cookie 了没具体cookie，根据具体网页分析 import requests cookies = {...} headers = {...} resp = requests.get(url=url, headers=headers, cookies=cookies) 有可能时请求头里携带了某些字段 # 有些网站需要携带特...

Python解析数据空显示

老王玩编程

10-03

2500

描述:问世间bug为何物，直教人欲罢不能。来了来了，今天所描述的是Python爬取网站源码Xpath解析数据时候遇到的一个奇奇怪怪的bug。简单来说就是在浏览器中的Xpath路径显示需要抓取的数据了但是拿到代码中 tree.xpath(解析)的时候输出数据一直是空就很大无语。。。。。。

python爬虫拿到登录 form data 的技巧

10-21

爬虫获取表单数据的技巧，拿到 form data的技巧爬虫获取表单数据的技巧，拿到 form data的技巧

web-spider-data-analysis.rar_Python爬虫入门_data analysis_data analy

09-14

标题中的"web-spider-data-analysis.rar"表明这是一个关于网络爬虫和数据分析的压缩文件，而“Python爬虫入门_data analysis_data analy”进一步说明了主要内容包括Python语言的爬虫技术和数据处理分析。标签...

【爬虫】Python实现爬取淘宝商品信息（超详细）

热门推荐

qq_46315152的博客

07-25

3万+

项目基于Python的第三方库Selenium模拟浏览器运行、PyQuery解析和操作HTML文档，获取淘宝平台中某类商品的详细信息（商品标题、价格、销量、商铺名称、地区、商品详情页链接、商铺链接等），并基于第三方库openpyxl建立、存储于Excel表格中。# 全局变量count = 1 # 写入Excel商品计数# 启动ChromeDriver服务# 关闭自动测试状态显示 // 会导致浏览器报：请停用开发者模式# 把chrome设为selenium驱动的浏览器代理；# 窗口最大化。

Python大作业：爬虫（完美应付大作业）.zip

05-29

python大作业--爬虫（完美应付大作业），Python大作业：爬虫（完美应付大作业）。 python大作业，简易爬虫 2020-2021学年上学期python大作业，爬取https://www.shicimingju.com ，模拟网站的7种搜索。用pyqt5做...

解决爬虫中为某些项为空的情况

带鱼工作室的博客

05-20

1万+

在我们平常爬取某个网站时，假设此网站内容排列整齐，例如这个论文网站。我们可以看到，这个网站论文排列整齐。那么我们想要获得每个论文的标题，作者，摘要，pmid，doi这5项，如下图所示那么对于第6篇论文，在它的里面摘要不存在，因此我们写的对于取这5项信息的爬虫代码会出现问题，下面附上问题代码及错误截图：问题代码：from bs4 import BeautifulSoupimport requests...

爬虫出现空列表或者长度为0是怎么回事？

何必说

07-20

2万+

今天来总结一下在爬虫遇到的特殊情况，利用正则或者xpath来匹配提取数据，偶尔会发现可以找到这个对象，却无法提取它的下一阶层的数据，这是怎么一回事？自己分析结果有以下几种：（1）自己的匹配写错了，怎么可能，我再三检查，对的不能再对了，排除这种情况，毕竟是本宝宝写的，谁还没有点小自信了。（2）可能是User-Agent浏览器版本不兼容，遇到这种情况要注意了，先检查一下自己爬取的数据，看...

python爬取b站403_Python如何爬取b站热门视频并导入Excel

weixin_39587113的博客

11-24

200

代码如下#encoding:utf-8import requestsfrom lxml import etreeimport xlwtimport os# 爬取b站热门视频信息def spider():video_list = []url = "https://www.bilibili.com/ranking?spm_id_from=333.851.b_7072696d61727950616765...

bilibili爬虫

weixin_41074255的博客

05-24

1068

搜索页:关键词+指定分区一、背景需求二、需求分析三、整体流程四、总结一、背景需求 1、抓取内容：给定关键词，并指定分区，获取该分区下的所有视频，同时，该视频如果是一个合集中的子集视频，则抓取该合集的所有视频 2、抓取字段：作者、标题、分区、详情页链接、发布时间、封面图、下载链接、标签、播放量、点赞量、评论量、弹幕量、收藏量二、需求分析 1、app端分析抓包后发现，搜索页的接口没有进行加密，将...

一篇文章读懂爬虫中Request 中data的问题

weixin_43191153的博客

11-05

2178

首先要知道网络中传的数据没有汉字也就是bytes类型的东东 data = { ‘‘first’:‘true’, ‘pn’:1, ‘kd’:‘python’’ } url = ‘https://www.lagou.com’ 所以要调用urllib.request.Request(url,data=data)的时候是错的首先那么data 是字典类型的东东无法直接转换为bytes的的...

爬虫中json.dumps或json.loads遇到params或data包含null的处理方法

lizz2276的博客

05-08

846

>> json.loads('{"a": null}') ## 用于resp = request.get() json.loads(resp.text)>>> json.dumps({'a':None}) ## 用于post(url,data= json.dumps({'a':None}))

当Python爬虫遭遇HTTP 403错误：这7种破解姿势你一定要会！！！

最新发布

kernelguru的博客

05-19

2527

不要用固定User-Agent！准备个UA池随机切换控制请求频率！建议每秒不超过3次请求及时处理异常！遇到403先暂停而不是继续硬刚尊重robots.txt！有些网站明确禁止爬虫就不要强行抓取最近帮朋友调试一个爬虫时，发现即使用上了所有方法还是403。最后发现是对方网站启用了TLS指纹验证（这种高级反爬就需要更复杂的对抗手段了）。所以网络爬虫本质上是场攻防战，需要持续学习新技术！（超级重要）最后提醒：技术无罪，但请遵守法律法规和网站的使用条款！爬取公开数据时也要注意不要对目标服务器造成过大压力～

bilibili视频爬取报错

qq_43734041的博客

10-19

1010

bilibili的音视频url获得响应为403 解决方法之一：请求头添加： "accept-encoding":

Python自动测试打开chrome时，chrome地址栏总是出现data:;

M_Eve的博客

07-28

1万+

在刚开始使用Python编写自动化测试代码的时候，会用代码打开chrome，firefox和IE浏览器来进行调试，但是，我发现可以打开IE却不能打开Chrome，每次打开的chrome的时候总是在地址栏出现“data:;”，却并不能打开链接地址，尝试了很多种方法，却没有想到，竟然是自己的chrome和下载的chromedriver的版本不匹配。重新下载了匹配的chromedriver之后，果真就可

百度文库爬虫python 403

01-05

### 解决 Python 爬虫访问百度文库时出现的 403 Forbidden 错误当尝试使用 Python 爬虫抓取百度文库的数据并遇到 `403 Forbidden` 错误时，这通常意味着服务器识别到请求并非来自真实的浏览器环境，而是自动化工具发出的请求。为了克服这一挑战，可以采取多种策略来模拟更自然的请求行为。 #### 使用自定义 Headers 和 User-Agent 字段许多网站会通过检查 HTTP 请求头中的特定字段（如 `User-Agent`）来判断请求源是否合法。因此，在发送请求前设置合适的头部信息能够有效减少被阻止的可能性[^1]： ```python import requests headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36' } url = "https://wenku.baidu.com/view/example.html" response = requests.get(url=url, headers=headers) print(f"Status Code: {response.status_code}") if response.status_code == 200: print("Request successful!") else: print("Failed to access the page.") ``` #### 处理 SSL 警告与验证问题有时目标站点可能会引发 SSL 验证失败的问题，可以通过禁用这些警告以及忽略证书校验的方式来绕过这类障碍。不过需要注意的是这样做存在安全隐患，仅适用于测试目的[^3]: ```python from requests.packages.urllib3.exceptions import InsecureRequestWarning requests.packages.urllib3.disable_warnings(InsecureRequestWarning) response = requests.get('https://example.wenku.baidu.com/', verify=False) ``` #### 实施延时机制防止频繁请求触发反爬措施为了避免因短时间内发起过多请求而触犯某些网站设定的安全阈值，可以在每次请求之间加入随机等待时间间隔，从而降低被检测的风险: ```python import time import random for i in range(5): # 假设要获取五个不同的文档 url = f"https://wenku.baidu.com/document/{i}" try: resp = requests.get(url=url, headers=headers) if resp.status_code != 200: raise Exception("Unable to fetch document") # Process data here... sleep_time = round(random.uniform(1, 3), 2) print(f"Sleeping for {sleep_time} seconds before next request...") time.sleep(sleep_time) except Exception as e: print(e) ``` #### 利用代理池规避 IP 封禁风险如果发现即使调整了上述参数仍然无法解决问题，则可能是由于IP地址被列入黑名单所致。此时可考虑借助第三方提供的动态代理服务或构建自己的代理池来进行轮询切换，以此达到隐藏真实身份的效果。