爬虫返回数据乱码问题

最新推荐文章于 2024-08-08 17:59:21 发布

zhengchao_

最新推荐文章于 2024-08-08 17:59:21 发布

阅读量2.8k

点赞数 3

本文链接：https://blog.csdn.net/weixin_41827268/article/details/85101097

版权

在进行爬取过程中会遇到页面解析时为中文，但是爬取下来的时候发现中文为乱码的情况，这种情况的产生实则是编码问题
以阳光问政这个网站为例子，在页面上查看的数据如下图

而实际返回的则是诸如此类的乱码

在这里插入图片描述

所以我们应在解析的时候进行编码的转换，下面是实际的代码：

rsp = requests.get(url="http://wz.sun0769.com/index.php/question/questionTypetype=4&page=1", headers=headers)
rsp.encoding = 'GBK'
print(rsp.text)

处理后的返回结果如下图
在这里插入图片描述

其中“gbk" 可以根据不同网页的不同加密方式进行转换，还有“gb2312"等格式，具体情况具体分析

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

zhengchao_

关注关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

nodejs爬虫抓取数据乱码问题总结

10-24

以下将详细介绍解决Node.js爬虫数据乱码问题的相关知识点。首先，乱码问题通常与字符编码有关。常见的字符编码有UTF-8、GBK、ISO-8859-1等。不同编码格式之间无法直接转换，如果混淆使用，很容易出现乱码。例如，...

Python爬虫中文乱码问题

学习一定要有针对性的练习-实操！

02-07

1397

我们在爬虫输出内容时，常常会遇到中文乱码情况（以如下网址为例）。 https://chengdu.chashebao.com/yanglao/19077.html 在输出内容时，出现如下图的情况：解决爬虫中文乱码的步骤网址编码为gbk 查看网页源代码的head部分的编码：<meta http-equiv="Content-Type" content="text/html; charset=gb2312">，发现网页编码为gbk类型利用requests库的方法查看默认输出的编码

2 条评论您还未登录，请先登录后发表或查看评论

python爬虫返回文本为乱码的解决方法

weixin_46830352的博客

09-16

4450

1、在网站爬取文章时，返回的结果为乱码，如下 2、出现这种情况是因为访问page_text.text时，Requests会使用其推测的文本编码。查看网页返回的字符集类型：page_text.apparent_encoding 查看自动判断的字符集类型：page_text.encoding 可以看到Requests推测的文本编码（ISO-8859-1）与源网页编码（utf-8)不一致 3、解决方法（1）方法一：在page_text.text之前，指定.encoding为源网页的编码..

3种Python爬虫中文乱码的处理方法

最新发布

Python_00001的博客

08-08

974

Python爬虫在抓取网页数据时，经常会遇到中文乱码问题。这通常是因为网页的编码格式与Python处理时使用的编码格式不一致导致的。以下是三种常见的处理中文乱码的方法，并附上相应的代码示例。

Python爬虫学习（2）：爬取网站返回的内容为乱码解决方法

qq_41817925的博客

03-04

2457

1、爬取某网站内容时，返回的结果为乱码，如图： 2、原因解释 Requests会基于HTTP头部响应的编码做出有根据的推测，当访问r.text时，Requests会使用其推测的文本编码。查看网页返回的字符集类型：r.apparent_encoding 查看自动判断的字符集类型：r.encoding 可以看到Requests推测的文本编码（ISO-8859-1）与源网页编码（utf-8）不一致，因此会导致乱码问题的出现。注：源网页也能直接查看编码格式，如下图： 3、解决方法这里要注意顺序，需要先

爬虫之网页解析

xiaomu_347的博客

03-11

533

（1）beautifulsoup https://blog.csdn.net/winterto1990/article/details/47624167/ （2）re （3）lxml

nodejs爬虫遇到的乱码问题汇总

10-20

以下是对Node.js爬虫遇到的乱码问题的详细知识点整理，以及如何解决这些问题的建议。 1. 网页编码识别问题在Node.js爬虫中，网页内容的编码可能会在HTTP响应头中指明，也可能在HTML页面的meta标签中定义。如果编码...

解决Python网页爬虫之中文乱码问题

09-20

例如，`requests`库相比于`urllib`库，能够更好地处理编码，它会自动检测HTTP响应头中的编码，并且以正确的编码方式返回文本，从而减少乱码问题的发生。当然，在使用`requests`库时，仍然需要注意到，当需要对数据...

Python网络爬虫出现乱码问题的解决方法

12-24

Python网络爬虫在抓取网页数据时，可能会遇到各种乱码问题，这主要源于源网页的编码和爬虫程序处理编码之间存在不匹配。解决乱码的关键在于正确地识别和处理网页的编码。首先，我们需要了解乱码产生的原因。源网页...

python中——requests爬虫【中文乱码】的3种解决方法

2301_82000445的博客

01-25

1万+

👉Python学习路线汇总👈Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。（学习教程文末领取哈）👉Python必备开发工具👈。

python 爬虫返回521

qq_41879417的博客

09-29

1464

今天爬取网站返回状态码521，经过分析发现是JS混淆加密，以下是具体破解代码： import execjs import re import requests import time url = 'http://www.mps.gov.cn/n2254536/n2254544/n2254552/n6636622/n6636639/c6641737/content.html' headers ...

图片需要调用接口获取，如何将返回的图片乱码转为真实图片

CS饭的博客

04-12

1434

输出返回的图片数据，显示乱码（ArrayBuffer 二进制流）若要正常展示图片，需要对其进行转换：

后端返回二进制图片前端乱码解决方案

weixin_46801282的博客

03-09

9899

今天有小伙伴发现一个问题,后端返回一张图片,但是前端打印结果是�PNG\r\n\u001a\n\u0000\u0000\u0000\rIHDR\u这种unicode乱码,postman和浏览器调试返回都能看到图片打印结果如图所示: 简单测试了一下,发现出现这种情况是因为后端图片没有转码成base64直接用文件流返回,就像这样 router.get('/test', (req, res) => { fs.readFile('./test.png', 'binary', function (err

PHP通过CURL的方式读取图片接口输出乱码

辰风沐阳

10-27

891

文章目录1. GD库做的图片2. 请求图片接口，使用 base64_encode() 函数处理3. 错误示例 1. GD库做的图片用 GD库做的图片，并输出到浏览器上 <?php $file = imagecreate(100,50); $color = imagecolorallocate($file,255,255,255); $c = imagecolorallocate($file,0,100,255); imagefill($file, 0, 0, $c); imagechar

Python 爬虫数据乱码解决方式

weixin_48826751的博客

03-10

6972

数据乱码大多来自于编码格式不支持中文显示，解决方式主要有如下两个： 1.设置对响应对象的编码格式 2.设置爬取到的数据编码格式及解码格式

爬虫返回乱码以及解决办法以及锟斤拷、ISO-8859-1转码、&#、&#x转码、unicode转码，gbk转码，ascii转码、gb2312转码

风华浪浪的博客

03-28

7177

注销设置Accept-Encoding为gzip,deflate，返回的网页是乱码 ��g�/1�C�y�/�D�O��’�� ‘Accept-Encoding’: ‘gzip, deflate, br’ 去掉后面的br或者注释Accept-Encoding import requests class InfoTec(object): def __init__(sel...

【中文乱码】爬虫requests返回值中文乱码问题处理

宋建国的博客

01-03

2656

【代码】【中文乱码】爬虫requests返回值中文乱码问题处理。

爬取数据出现乱码的解决方法