爬虫返回页面乱码处理

最新推荐文章于 2024-08-08 17:59:21 发布

宇宙无敌帅超人

最新推荐文章于 2024-08-08 17:59:21 发布

阅读量4.1k

点赞数

分类专栏： python爬虫文章标签：爬虫网页乱码

本文链接：https://blog.csdn.net/weixin_40896352/article/details/82715261

版权

python爬虫专栏收录该内容

10 篇文章 0 订阅

订阅专栏

最近写了个小爬虫，返回页面是完全乱码的，连Html结构都是乱码，用chardet的detect方法判断了下response.content,还是看不出返回的页面是什么编码，经过多方查阅，get到一个新的技能(之前从没用过这个库)。。

import urllib3
import requests

http = urllib3.PoolManager()
r = http.request('GET', url)
print(chardet.detect(r.data))
print((r.data).decode('gb2312', 'ignore'))
return (r.data).decode('gb2312', 'ignore')

Note:

我用的是Python3，导包不成功的话可能还需你手动下载urllib3库

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

宇宙无敌帅超人

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

爬虫训练（二）：乱码问题

weixin_43916181的博客

04-06

285

背景：在第一次尝试爬虫过程中，整个爬虫尝试算是成功了，但是还存在很多小瑕疵，这里最主要一个问题就是爬虫结果为乱码，根据错误情况再次查了好多说法。一.问题分析目前来看，对于爬取整个网页出现的乱码，解决方法非常简单，错误原因主要是网页编码。 Requests 会基于 HTTP 头部对响应的编码作出有根据的推测，而这可能与网页自身的编码并不一致，检查代码如下： #print(res.encodin...

网络爬虫中编码的正确处理与乱码的解决策略

erliang20088的博客

05-17

2409

最近一个月一直在对nutch1.6版进行中等层次的二次开发，本来是想重新做一个自写的爬虫系统，鉴于前基做过微博爬虫系统，感觉再重写一个完整的爬虫费时、费力还没太大的含金量，故而直接基于nutch开发。之所以说中是因为没有改动nutch的核心部分map/reduce,但改动了除此之外的绝大部分问题，最终形成了任务提交多样化、调度合理、数据流优化、乱码处理、源码与正文保存等较为合理的网络爬

1 条评论您还未登录，请先登录后发表或查看评论

Python爬虫学习（2）：爬取网站返回的内容为乱码解决方法

qq_41817925的博客

03-04

2468

1、爬取某网站内容时，返回的结果为乱码，如图： 2、原因解释 Requests会基于HTTP头部响应的编码做出有根据的推测，当访问r.text时，Requests会使用其推测的文本编码。查看网页返回的字符集类型：r.apparent_encoding 查看自动判断的字符集类型：r.encoding 可以看到Requests推测的文本编码（ISO-8859-1）与源网页编码（utf-8）不一致，因此会导致乱码问题的出现。注：源网页也能直接查看编码格式，如下图： 3、解决方法这里要注意顺序，需要先

3种Python爬虫中文乱码的处理方法

最新发布

Python_00001的博客

08-08

1068

Python爬虫在抓取网页数据时，经常会遇到中文乱码问题。这通常是因为网页的编码格式与Python处理时使用的编码格式不一致导致的。以下是三种常见的处理中文乱码的方法，并附上相应的代码示例。

python爬虫返回文本为乱码的解决方法

weixin_46830352的博客

09-16

4474

1、在网站爬取文章时，返回的结果为乱码，如下 2、出现这种情况是因为访问page_text.text时，Requests会使用其推测的文本编码。查看网页返回的字符集类型：page_text.apparent_encoding 查看自动判断的字符集类型：page_text.encoding 可以看到Requests推测的文本编码（ISO-8859-1）与源网页编码（utf-8)不一致 3、解决方法（1）方法一：在page_text.text之前，指定.encoding为源网页的编码..

爬虫解析数据中的乱码问题解决

王子老师

06-20

640

resonse.encoding = 'utf-8 或者 response.encode(‘iso-8859-1’).decode('gbk)

常见的爬虫乱码的解决办法

一条小黑龙的博客

09-30

1483

【代码】常见的爬虫乱码的解决办法。

Python网络爬虫出现乱码问题的解决方法

12-24

Python网络爬虫在抓取网页数据时，可能会遇到各种乱码问题，这主要源于源网页的编码和爬虫程序处理编码之间存在不匹配。解决乱码的关键在于正确地识别和处理网页的编码。首先，我们需要了解乱码产生的原因。源网页...

nodejs爬虫遇到的乱码问题汇总

10-20

Node.js爬虫在解析网页数据时经常会遇到编码不一致的问题，导致输出结果出现乱码。...通过上述的分析和对策，可以更有效地处理Node.js爬虫程序中的乱码问题，提高爬虫的健壮性和数据提取的准确性。

解决Python网页爬虫之中文乱码问题

09-20

在使用Python进行网页爬虫开发时，处理中文字符显示为乱码是一个常见的问题。在Web页面中，字符编码通常使用UTF-8，而Python在处理字符串时，默认使用Unicode编码。当爬虫从网页中获取内容，并将其输出或存储时，...

Scrapy爬虫之中文乱码问题

自封的羽球大佬

08-28

9671

问题描述： I. #这是.csv格式的文件，有中文乱码现象。 [root@Uu jianshu]# cat jianshu.csv url,title,author http://www.jianshu.com/p/2a7a594816e1,彖浣犳村?鏍? [root@Uu jianshu]# ...

python爬虫数据中文显示为乱码解决方式（gbk导致）

littledive的博客

12-28

2756

爬虫乱码是一个很常见的问题，给大家分享一个我遇到的案例及解决方案爬取对象为电影票房（网址：target='http://www.piaofang.biz/'）电影名显示为乱码此时查看网页源代码，发现显示为gbk 我们需要使用requests库的方法查看编码类型可以看到编码为ISO-8859-1，然后只需要在对应位置上encode(ISO-8859-1)，中文乱码就可以解决 ...

python 爬虫 response得到乱码

庇护所

08-13

7311

这个问题折磨了我几乎一天，好在我倔强地不停搜索解决方法。 “终于等到你，还好我没放弃。” 进入正题，感谢大神的分享，开个传送门：https://www.cnblogs.com/leomo/p/6869230.html 以下为代码,爬取汉字“一”的篆书字，得到网页源代码： import requests #使用post方法爬取网页信息 url = 'http://www.diyizit...

爬虫返回数据乱码问题

weixin_41827268的博客

12-19

2897

在进行爬取过程中会遇到页面解析时为中文，但是爬取下来的时候发现中文为乱码的情况，这种情况的产生实则是编码问题以阳光问政这个网站为例子，在页面上查看的数据如下图![在这里插入图片描述](https://img-blog.csdnimg.cn/20181219164603482.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk...

Python爬虫-11-response.text出现乱码的解决方案

karry_孙二的博客

05-14

7250

代码如下： # 这里是封装的一个下载url页面的方法 import requests def download_page(url, user_Agent=None, referer=None): print("Downloading:",url) headers = { "Referer":referer, "User-Agent":us...

python爬虫＜Response [200]＞返回值问题