Python_爬虫_中文乱码

最新推荐文章于 2024-08-08 17:59:21 发布

守着回忆_

最新推荐文章于 2024-08-08 17:59:21 发布

阅读量1w

点赞数 5

分类专栏： Python 文章标签： python 爬虫乱码

本文链接：https://blog.csdn.net/Dream_Hongyu/article/details/50478265

版权

Python 专栏收录该内容

0 篇文章 0 订阅

订阅专栏

今天在用Python2.7爬取百度百科的一个网页时发现输出时中文为乱码。
尝试一:
查看网页页面信息，发现其中文字编码为“GBK”，遂准备对其进行解码。

content = urllib2.urlopen(url).read().decode('gbk').encode('utf-8')

报错UnicodeDecodeError: ‘gbk’ codec can’t decode bytes in position 3681-3682: illegal multibyte sequence
尝试二：
百度之后发现有人说可能是网页信息是被gzip压缩的，需要先解压缩

import gzip, StringIO
html = gzip.GzipFile(fileobj=StringIO.StringIO(html), mode="r")
html = html.read().decode('gbk').encode('utf-8’)

报错说文本未被压缩
尝试三（成功）：
偶然间看到网上有个代码在decode中加了第二个参数’ignore’，尝试了下竟然成功了，原来是文本中有不属于gbk的编码，之前遇到时就会报错，但其实那些地方无关紧要，需要的信息正确就好。

content = urllib2.urlopen(url).read().decode('gbk','ignore').encode('utf-8')

另附：判断文本真实编码的代码：

import chardet
print chardet.detect(content)['encoding']

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

守着回忆_

关注关注

5
点赞
踩
12

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

解决Python网页爬虫之中文乱码问题

01-20

最近在学习网页爬虫时就遇到了这样一种问题，中文网站爬取下来的内容往往中文显示乱码。看过我之前博客的同学可能知道，之前爬取的一个学校网页就出现了这个问题，但是当时并没有解决，这着实成了我一个心病。这不，...

pycharm爬虫运行后console中文出现xe4\xb8\乱码的解决方法

autotest00的博客

05-12

2504

对于Python3爬虫抓取网页中文出现输出乱码import urllib.request response = urllib.request.urlopen('http://www.12306.cn/mormhweb/') html = response.read() print(html)上面的代码正常但是运行的时候结果遇到中文会以\xe7\x99\xbe\xe5\xba\xa6\xe4\xb8...

1 条评论您还未登录，请先登录后发表或查看评论

urlopen(url).read()显示乱码问题

qq_40345954的博客

03-29

2562

问题及探索：urlopen(url).read()抓取网页后显示乱码问题首先用python2.7，后来显示乱码后，尝试了encode decode未果，以为是python2.7不支持中文的问题（确实后一部分原因），后改用python3.8，发现还是乱码，不过不是一点也不可读，稍后展示乱码。后用chardet检查，结果为{'confidence': 0.0, 'language': None, 'encoding': None}，后经各种google，发现是网页传回来的页面被压缩了，需要用gzip库解压。

3种Python爬虫 中文乱码 的处理方法

最新发布

Python_00001的博客

08-08

981

Python爬虫在抓取网页数据时，经常会遇到中文乱码问题。这通常是因为网页的编码格式与Python处理时使用的编码格式不一致导致的。以下是三种常见的处理中文乱码的方法，并附上相应的代码示例。

python中——requests爬虫【中文乱码】的3种解决方法

LHJCSDNYL的博客

07-24

1万+

python中requests爬虫【中文乱码】问题，是最常遇到的问题，对于初学者来说，是很困恼的。本文将详细说明，python中使用requests库编写爬虫程序时，出现【中文乱码】的原因，及常见3种解决办法。

Python：爬虫乱码

weixin_45068714的博客

10-14

2800

在所有的编解码方式中，ASCII码字符对应的二进制表示都是一样的。编、解码要相对应，才能不损失数据原本的意义，我们才不会误解数据；数据以编码方式1进行编码的到字节流，那么这段字节流必须以对应的解码方式1进行解码，才可以得到原始的数据；否则这段字节流可能会：1、解码成别的数据（按照解码方式2，这一段二进制位对应了别的字符）；2、解码失败（按照解码方式2，这一段二进制位可能不对应任何字符）。

盘点3种Python网络爬虫过程中的中文乱码的处理方法

i54996的博客

10-13

2412

这里再次给大家祭出网络爬虫过程中三种中文乱码的处理方案，希望对大家的学习有所帮助。前言前几天有个粉丝在问了一道关于使用Python网络爬虫过程中中文乱码的问题，如下图所示。看上去确实头大，对于爬虫初学者来说，这个乱码摆在自己面前，犹如拦路虎一般难顶。不过别慌，小编在这里给大家整理了三种方法，专门用于针对中文乱码的，希望大家在后面再次遇到中文乱码的问题，在此处可以得到灵感！一、思路其实解决问题的关键点就是在于一点，就是将乱码的部分进行处理，而处理的方案主...

Python网络爬虫出现乱码问题的解决方法

12-24

在实际的Python爬虫开发中，处理汉字编码问题时，可以采取以下步骤： 1. 使用`chardet`检测网页内容的原始编码。 2. 将原始内容解码为Unicode，即`decode()`操作。 3. 将Unicode内容编码为目标编码，如UTF-8，即`...

解决python3爬虫无法显示中文的问题

09-20

在使用Python 3进行网络爬虫时，可能会遇到一个问题，即爬取的数据中包含中文字符，但在保存或显示时无法正确显示，出现了类似“\xe4\xba\xba\xef\xbc\x8c\xe6”这样的乱码。这通常是由于字符编码不匹配引起的。中文...

urllib.request.urlopen(url)不能两次.read()?

weixin_44548627的博客

02-04

1187

笔者在初学Python爬虫时，用到 urllib.request.urlopen 获取百度搜索页面 (http://www.baidu.com) 上的信息，发现 urllib.request.urlopen(url) 在第二次调用 .read() 时变为空了，这是因为第一次调用 .read() 已经把所有字节都解读了。

Python 爬虫 中文乱码一文通

HRG520JN的博客

07-27

3980

还在找python中文乱码的解决方法？来跟我学习，一文直接PASS。

【python爬虫】遇到中文乱码了怎么办？看看这篇文章能不能教会你

bagell的博客

09-13

1376

看上去确实头大，对于爬虫初学者来说，这个乱码摆在自己面前，犹如拦路虎一般难顶。不过别慌，快快在这里给大家整理了三种方法，专门用于针对中文乱码的，希望大家在后面再次遇到中文乱码的问题，在此处可以得到灵感！针对Python网络爬虫过程中的中文乱码问题，给出了3种乱码解决方法，虽然文中例举了3种方法，但是快快相信肯定还有其他的方法的，也欢迎大家在评论区谏言。如果你需要学习交流的资料，这个链接有免费的课程可能对你有些帮助哦~点击这里跳转哦~

盘点一个Python网络爬虫过程中中文乱码的3个解决办法

pdcfighting的博客

04-01

1158

点击上方“Python爬虫与数据挖掘”，进行关注回复“书籍”即可获赠Python从入门到进阶共10本电子书今日鸡汤梨园弟子白发新，椒房阿监青娥老。大家好，我是皮皮。一、前言前几天在Python钻石交流群【余克富】问了一个Python网络爬虫过程中中文乱码的问题，这里拿出来给大家分享下。下图是乱码截图：【甯同学】这里也指出了，最好还是要加个请求头，尊重下爬虫。二、实现过程这个问题其实不太难，网络爬虫...

python爬虫中通用的两种乱码解决方式（自用）

ZhanShenvsDiHuang的博客

07-14

2517

python爬虫乱码问题

Python 爬虫数据乱码解决方式

weixin_48826751的博客

03-10

6972

数据乱码大多来自于编码格式不支持中文显示，解决方式主要有如下两个： 1.设置对响应对象的编码格式 2.设置爬取到的数据编码格式及解码格式

Python输出csv文件中文乱码及解决