python删除乱码_还在为Python中文乱码烦恼,老司机给你讲讲

转自微信公众号:菜鸟学Python

有没有遇到过这样的问题,读取文件被提示“UnicodeDecodeError”、爬取网页得到一堆乱码,其实这些都是编码惹的祸,如果不能真正理解编码的问题所在,就像开车没有带导航,游泳没有带有度数的眼镜。如果你正在为此而 头疼,不妨来看看这篇文章,里面或许有你要的答案。

一些基本的编码知识

1).常见的编码格式

ASCII/ANSI:

ASCII可以简单理解为用于表述英文文字的编码。ANSI是ASCII的扩展,除英文外还可以表示拉丁文。

GB2312/GBK/GB18030:

“GB”既“国标”,是中国自己的编码方案,目的当然是为了描述汉字(下文我们统称 其为GB系列)。其中,GB2312是对ASCII的中文扩展,GBK和GB18030的涵盖了GB2312的所有内容,同时 又增加了近20000个新的汉字(包括繁体字)和符号。

Unicode:

既然中国搞出了自己的编码标准,那么其他国家当然也有自己的一套规范,而且相互之间互不支持,为了解决这一乱象,国际标谁化组织提出了统一的标准编码准则Unicode 。**这里大家 可以先简单记住一点:python3 Unicode **。

UTF-8:

说得官面一点,utf-8是最流行的一种对 Unicode 进行传播和存储的编码方式。其实我们可以简单理 解为,utf-8是为了节省Unicode的存储资源和传输流量而产生的一种编码方式,其所能表述的字符范围与Unicode是相等的,但是相对于Unicode它更加轻量化,相对于GB系列它的涵盖范围更广、兼容性也更好。

2).Python3中的编码与解码

Python3中有两种数据类型(注意是数据类型而不是编码方式):str和bytes。str类型存储unicode数据,用于向人展示数据,既我们所说的明文。bytes类型用于存储字节数据,用于计算机存储和传输。

明文(str)和字节(bytes)数据之间的转换关系就是编码和解码,从str到bytes叫编码,用encode命令,从bytes到str叫解码,用decode命令。需要注意的是,str数据无法进一步decode,bytes数据也无法进一步encode。

3fd902ef5e7b?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation

1.jpg

下面我们来看一个例子,首先看编码过程:

3fd902ef5e7b?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation

2.jpg

解码过程如下:

# 输入:

b = b'\xd6\xd0\xce\xc4-\xb2\xe2\xca\xd4' # 中文-测试的gbk编码

print(b.decode('gbk'))

# 输出:

中文-测试

可以看到,encode()不加参数得到的结果与使用utf-8编码方式是一样的,因为python3中的默认编码就是utf-8,GB系列之间的编码是相同的,但是GB系列和utf-8的编码方式不一样,其编码后产生的字节数据也不相同,看到这里我们应该可以意识到,使用utf-8编码的数据只能通过utf-8进行解码,使用“GB”编码的数据也只能使用“GB”来解码,既解码与编码的规范要一致,否则就会出错。

那么不同的编码数据能否相互转换呢,当然可以,因为他们所对应的unicode数据都是统一的,看下面这张图:

3fd902ef5e7b?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation

image

对于一组字节数据,我们可以先将其解码为unicode数据,再使用其他的编码格式转换为相应的字节数据。

这里需要提醒一点,有人在得到一份乱码数据(str)后试图先对其编码(比如utf-8),再以另外一种方式解码(比如GB2312),这样肯定是行不通的,原因刚才我们已经讲过——编码解码要一致,解决中文乱码的正确环节应该在它出现之前。

3).编码格式识别

刚才我们已经演示了数据编码解码的过程,对于一份str数据编码可以选定我们想要的方式进行编码,那么如果拿到的是一份字节数据,如何判断它该以何种方式解码呢?**这里推荐一个第三方库chardet **,使用“pip install chardet”命令安装后导入该库,使用detect方法来判断字节数据的编码格式。

3fd902ef5e7b?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation

image

在上面这个例子中,我们先从文本文件中获取了一组str数据,分别使用utf-8和GB2312编码,并使用chardet.detect方法识别。

我们来看输出结果,‘encoding’参数后面的值是系统“猜测”的字节数据编码格式,‘confidence’参数后面的值可以理解为是判断可靠度,取值在0到1之间,0.99表示可靠度99%,从上面的例子中可以发现,chardet的判断还是很准确的。

常见问题及解决方法

看完了上面的内容我们可能已经察觉到,平时遇到的编码问题大多数都是编码与解码方式不一致造成的,下面我们就针对python编程过程中一些常见的编码问题来举例说明。

1.文件读写

问题描述:

大家有没有遇到过这类情况:试图打开一个文本文件却提示“UnicodeDecodeError: 'gbk' codec can't decode byte 0xxx in position XX”,或者直接打开csv文件却显示乱码?对于这类问题我们要首先了解系统文件的编码机制,以我使用的win7系统为例,文件的默认编码方式为GB2312,假如我们想要打开的是一份以utf-8或者其他非GB系列编码的文件,自然是很容易出现各类问题的。

解决办法:

对于这类问题,我们可以在程序外部使用第三方软件转换文件的编码格式,但是我更推荐另一种方式,既在代码中使用encoding参数指定编码格式,这种方式不仅适用于打开文本文件,也适用于csv等其他文件。

# 文本文件with open(r'trainers.txt', encoding='utf-8') as f: names = f.read(100)

2.网页爬取

问题描述:

相信学python的朋友很多都玩过爬虫,如果我们需要获取的数据是数字或者英文还好,但如果我们想要获取的是中文数据,就有可能得到一堆乱码,这类问题产生的原因与文件操作道理是一样的,既系统默认选择的编码方式与网页数据的实际编码方式不一致。

python里请求网页获取数据的方式很多,这里以Requests库为例进行说明,当请求发出后,Requests 会基于HTTP头部对响应的编码作出有根据的推测,并返回一个名为r的Response对象。

当你访问 r.text 之时,Requests 会使用其推测的文本编码,当Requests的推测与实际情况不符时,错误就发生了。

解决办法:关于这个问题,Requests文档里已经给出了明确解决方案,既使用r.encoding属性来手动指定编码方式(例如:r.encoding='GBK'),那么我们如何确定网页数据的真实编码方式呢?一般来说可以按照优先级依次查看以下三个位置:

http header的Content-Type参数

网页头中标签的charset参数

网页头中Document的charset参数

例如,新浪体育的网页数据编码方式可以在网页头的标签找到

3fd902ef5e7b?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation

image

如果以上三处都无法找到网页编码怎么办?不要怕,我们还可以使用r.content属性来获得网页的字节数据(类似“\xe4\xb8\xad\xe6\x96\x87-\xe6\xb5\x8b\xe8\xaf\x95”的形式),然后使用上面提到的chardet库来进行识别。

如果使用爬虫框架或者其他方式获取网页数据,具体的操作方式可能略有不同,但处理编码问题的道理都是一样的。

这里还要提醒一点,网上有一些爬虫教程示例,返回的数据是“\xe4\xb8\xad\xe6......”形式的字节数据,看完这篇文章我们知道这并不是乱码,只需要以对应的方式进行解码即可。

3.巧用errors参数

问题描述:

如果找到了文件的编码并用对应的方式进行编码和解码就一定不会出错吗?当然不是,之前我在使用python分析武侠小说的时候就遇到过这个问题,虽然使用正确的编码方式(GB2312)来读取文本文件但依然报错,经过分析发现是由于文本中有一些特殊字符无法识别。

解决方法:

设置errors参数将那些制造问题的字符忽略掉,获取对我们真正有用的数据。

with open(r'楚留香系列午夜兰花.txt', errors='ignore') as f: text = f.read()

同类的问题在爬取网页时也有可能遇到,解决思路都是一样的。

另外,errors参数的作用还有很多,例如我们想获取既能被GBK识别又能被GB2312识别的数据(前面我们说过GBK编码的涵盖范围要比GB2312多),可以先使用GB2312对其进行编码,同时忽略到无法识别的字符,随后再以GB2312的方式解码,代码如下:

data_2312 = data.encode('gb2312', errors='ignore').decode('gb2312')

3fd902ef5e7b?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation

image.gif

关于Python中常见的中文编码问题今天就先介绍到这里,需要注意的是,python2和python3的编码方式略有不同,本文内容主要针对python3。Python的知识点非常多,大家平时要养成记笔记的习惯,把自己的一些心得记下来,学会总结是一个不错的习惯!

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值