python如何分清encode和decode

最新推荐文章于 2022-12-31 16:37:25 发布

张大皮

最新推荐文章于 2022-12-31 16:37:25 发布

阅读量329

点赞数

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/qq_25473157/article/details/106289156

版权

python 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

<本文示例用的python2.7,以及我的破输入法打不出中文标点,很迷…望诸位道友忍耐下>

一.简述

encode() 是编码 decode()是解码两个函数参数相同都是两个
语法:

str.encode(encoding=‘UTF-8’,errors=‘strict’)
str.decode(encoding=‘UTF-8’,errors=‘strict’)

第一个参数是所需要的编码或者解码的格式,第二个参数是错误处理方案,默认为strict,意思是如果当前函数报错了,那么我们用抛出一个UnicodeError的方式处理它

一个新鲜出炉的真实案例:

>a = '中文'
>a.decode('gb2312')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'gb2312' codec can't decode bytes in position 2-3: illegal multibyte sequence

当然errors也有其他的参数,比较常用的举个例子ignore,忽略错误,编/解出多少就保留多少

> a.decode('gb2312','ignore')
u'\u6d93'
> print a.decode('gb2312','ignore')
涓

以上是有关这两个函数的基本用法,当然如果能依靠上面那些就分得清这两个东西那你也不会搜到我这篇文章了.那么如何区分呢?

还是要从为什么python会有这么烦人的编码问题存在说起 ------------
python的内置方法会时常把字符串换成unicode编码,而我们想要其他的,所以要转成其他的
现在方法来了

二.记忆方法

1.感知法:
你是否觉得在你过去写过的千千万万行代码中python中encode出现的频率比decode高?
那是因为,你可以认为encode就是服务于unicode编码的:

unicode编码.encode(‘其他编码1’) = 其他编码1

其他格式编码1.decode(‘其他格式编码1’) = unicode编码

其他格式编码1.decode(‘其他格式编码1’) .encode(‘其他格式编码2’) 这也是一种常用的结构,表示先把编码1解码成unicode再编码成编码2

来一段例子生动一下

>import chardet    #(python可引用的,有概率检查出编码类型的库)
>a = u'中文'
>b = a.encode('utf8')
>b
'\xe4\xb8\xad\xe6\x96\x87'  # 结果
>chardet.detect(b)
{'confidence': 0.7525, 'encoding': 'utf-8'}  # 结果
#此时的b为utf-8,所以我们直接用b去decode
>b.decode('utf8')
u'\u4e2d\u6587'  # 结果
>b.decode('utf8').encode('gbk')  #先把utf-8解码成unicode才能再编码成gbk
'\xd6\xd0\xce\xc4'   #结果