Python_爬虫_中文乱码

最新推荐文章于 2024-04-12 01:29:46 发布

守着回忆_

最新推荐文章于 2024-04-12 01:29:46 发布

阅读量1w

点赞数 5

分类专栏： Python 文章标签： python 爬虫乱码

本文链接：https://blog.csdn.net/Dream_Hongyu/article/details/50478265

版权

Python 专栏收录该内容

0 篇文章 0 订阅

订阅专栏

今天在用Python2.7爬取百度百科的一个网页时发现输出时中文为乱码。
尝试一:
查看网页页面信息，发现其中文字编码为“GBK”，遂准备对其进行解码。

content = urllib2.urlopen(url).read().decode('gbk').encode('utf-8')

报错UnicodeDecodeError: ‘gbk’ codec can’t decode bytes in position 3681-3682: illegal multibyte sequence
尝试二：
百度之后发现有人说可能是网页信息是被gzip压缩的，需要先解压缩

import gzip, StringIO
html = gzip.GzipFile(fileobj=StringIO.StringIO(html), mode="r")
html = html.read().decode('gbk').encode('utf-8’)

报错说文本未被压缩
尝试三（成功）：
偶然间看到网上有个代码在decode中加了第二个参数’ignore’，尝试了下竟然成功了，原来是文本中有不属于gbk的编码，之前遇到时就会报错，但其实那些地方无关紧要，需要的信息正确就好。

content = urllib2.urlopen(url).read().decode('gbk','ignore').encode('utf-8')

另附：判断文本真实编码的代码：

import chardet
print chardet.detect(content)['encoding']

优惠劵

守着回忆_

关注关注

5
点赞
踩
12

收藏

觉得还不错? 一键收藏
1
评论
Python_爬虫_中文乱码

Python爬虫中文乱码，decode('gbk', 'ignore')
复制链接

扫一扫

专栏目录

解决python3爬虫无法显示中文的问题

09-20

下面小编就为大家分享一篇解决python3爬虫无法显示中文的问题，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

Python网络爬虫出现乱码问题的解决方法

12-24

关于爬虫乱码有很多各式各样的问题，这里不仅是中文乱码，编码转换、还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为解决方式是一致的，故在此统一说明。网络爬虫出现乱码的原因源网页编码和爬取下来后的编码格式不一致。如源网页为gbk编码的字节流，而我们抓取下后程序直接使用utf-8进行编码并输出到存储文件中，这必然会引起乱码即当源网页编码和抓取下来后程序直接使用处理编码一致时，则不会出现乱码; 此时再进行统一的字符编码也就不会出现乱码了注意区分源网编码A、程序直接使用的编码B、统一转换字符的编码C。乱码的解决方法确定源网页的编码A,编码A往往在网页中的

1 条评论您还未登录，请先登录后发表或查看评论

python中——requests爬虫【中文乱码】的3种解决方法

2301_82000445的博客

01-25

3391

👉Python学习路线汇总👈Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。（学习教程文末领取哈）👉Python必备开发工具👈。

解决Python网页爬虫之中文乱码问题

01-20

Python是个好工具，但是也有其固有的一些缺点。最近在学习网页爬虫时就遇到了这样一种问题，中文网站爬取下来的内容往往中文显示乱码。看过我之前博客的同学可能知道，之前爬取的一个学校网页就出现了这个问题，但是当时并没有解决，这着实成了我一个心病。这不，刚刚一解决就将这个方法公布与众，大家一同分享。首先，我说一下Python中文乱码的原因，Python中文乱码是由于Python在解析网页时默认用Unicode去解析，而大多数网站是utf-8格式的，并且解析出来之后，python竟然再以Unicode字符格式输出，会与系统编码格式不同，导致中文输出乱码，知道原因后我们就好解决了。下面上代码，实验对

Python爬虫——简单网页抓取（实战案例）小白篇_python爬虫爬取网页数据(1)

最新发布

m0_60635224的博客

04-12

710

我们已经知道在讲urlopen中传入一个网址的时候他就会主动的去访问目标的网址，会返回一个HTTPResponse类型的对象，那么我们是怎么知道我们发送的get请求和post请求呢？上面的urllib是可对网页发起请求，在我们实际的爬虫应用中，如果频繁的访问一个网页，网站就会识别我们是不是爬虫，这个时候我们就要利用Request来伪装我们的请求头。Fiddler是最好用的Web调试工具之一，它能记录所有客户端和服务器的http和https请求，允许你监视，设置断点，甚至修改输入输出数据。

Python 爬虫 中文乱码一文通

HRG520JN的博客

07-27

3744

还在找python中文乱码的解决方法？来跟我学习，一文直接PASS。

pycharm爬虫运行后console中文出现xe4\xb8\乱码的解决方法

autotest00的博客

05-12

2448

对于Python3爬虫抓取网页中文出现输出乱码import urllib.request response = urllib.request.urlopen('http://www.12306.cn/mormhweb/') html = response.read() print(html)上面的代码正常但是运行的时候结果遇到中文会以\xe7\x99\xbe\xe5\xba\xa6\xe4\xb8...

python爬虫解决gbk乱码问题

weixin_30315723的博客

03-15

442

今天尝试了下爬虫，爬取一本小说，忘语的凡人修仙仙界篇，当然这样不好，大家要支持正版。　　爬取过程中是老套路，先获取网页源代码　　 # -*- coding:UTF-8 -*- from bs4 import BeautifulSoup import requests if __name__ =='__main__': url='http://www.biquge.co...

解决python中文乱码问题

m0_66695483的博客

08-08

9715

解决python中的中文乱码问题

盘点3种Python网络爬虫过程中的中文乱码的处理方法

redis数据库安装及启用

11-18

350

盘点3种Python网络爬虫过程中的中文乱码的处理方法

Python爬虫——简单网页抓取（实战案例）小白篇

热门推荐

m0_74942241的博客

10-27

1万+

在着手写爬虫抓取网页之前，要先把其需要的知识线路理清楚。首先：了解相关的Http协议知识；其次：熟悉Urllib、Requests库；再者：开发工具的掌握 PyCharm、Fiddler；最后：网页爬取案例；

Python个人学习笔记四

关注互联网安全的小虾米一枚

09-22

4596

Python个人学习笔记四

Python2与Python3的区别(一)：urllib和urllib2与urllib

foryouslgme的博客

05-18

4044

Python2中urllib和urllib2与Python3中的urllib区别；在python2.x中，urllib和urllib2是不可相互替代的。 python 3.x中urllib库和urilib2库合并成了urllib库

urlascii码传输的问题

baibaibaixiaochun的博客

10-26

211

在python3中urllib.request.openurl()无法对中文字符转码，而python删除除了一些关于str的编码与解码的api在python程序中都是以默认编码的字节串暂时未找到好的解决方法，以后会在这方面持续更新所以暂时使用临时方法：将中文字符自己转成ascii 然后再替换到url ...

Python 爬虫数据乱码解决方式

weixin_48826751的博客

03-10

6838

数据乱码大多来自于编码格式不支持中文显示，解决方式主要有如下两个： 1.设置对响应对象的编码格式 2.设置爬取到的数据编码格式及解码格式

Python爬虫中文乱码问题

weixin_44003896的博客

11-07

1066

Python爬虫中文乱码问题解决办法

盘点一个Python网络爬虫过程中中文乱码的3个解决办法

pdcfighting的博客

04-01

1105

点击上方“Python爬虫与数据挖掘”，进行关注回复“书籍”即可获赠Python从入门到进阶共10本电子书今日鸡汤梨园弟子白发新，椒房阿监青娥老。大家好，我是皮皮。一、前言前几天在Python钻石交流群【余克富】问了一个Python网络爬虫过程中中文乱码的问题，这里拿出来给大家分享下。下图是乱码截图：【甯同学】这里也指出了，最好还是要加个请求头，尊重下爬虫。二、实现过程这个问题其实不太难，网络爬虫...

python3爬虫中文乱码_python3爬虫中文乱码之请求头‘Accept-Encoding’：br 的问题

06-07

在Python3的爬虫中，如果请求头中的Accept-Encoding字段包含br，可能会导致中文乱码的问题。这是因为br是Brotli压缩算法的缩写，用于对HTTP响应进行压缩。如果服务器返回的响应已经被压缩过，那么请求头中带有br的话，就会导致中文乱码。解决此问题的方法是在请求头中去掉br，只保留gzip和deflate。示例代码如下： ```python import requests headers = { 'Accept-Encoding': 'gzip,deflate', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3' } response = requests.get(url, headers=headers) ``` 这样就可以解决中文乱码的问题了。

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交