【python】关于encode()，decode()的一些总结

最新推荐文章于 2024-04-29 16:15:46 发布

一念花开落天涯

最新推荐文章于 2024-04-29 16:15:46 发布

阅读量898

点赞数 1

分类专栏：笔记文章标签： python

本文链接：https://blog.csdn.net/Alan_Rockroll/article/details/124018640

版权

最初，大家使用的字符串编码是ASCII编码。但是它只对10个数字，26个大小写英文字母，以及一些特殊字符，共计256个，每个字符占一个字节。为了兼容各个国家的一些文字，出现了GBK,GB2312,UTF-8编码等。

其中GBK,GB2312是我国制定的中文编码标准，并规定一个英文字母字符占1字节，中文字符占2字节。

UTF-8则是国际通用的编码格式，它包含了全世界所有国家需要用到的字符，但是规定则是一个英文字母在1字节，中文占3字节。

注意：

Python 3.x以上版本默认采用的是UTF-8的编码格式，好处就是有效的解决了中文乱码的问题，不用单独去编码啦。

在python中，有两种常见的字符串类型，str 和 bytes类型。其中，str是用来表示Unicode字符，bytes用来表示二进制数据。str类型于bytes类型之间转换，就要用到encod() (str 转 bytes)，decode() (bytes 转 str)。

encode() 是字符串类型(str)提供的方法，用于将str类型转换成bytes类型，这个过程也称为“编码”。

语法格式：

str.encode([encoding = 'utf-8',[errors = 'strict'])

注意：[]中括号里面的一般为可选参数，如果不人为传参，则用括号里面的默认参数。各参数表如下

参数	含义
str	表示要进行转换的字符串
encoding = ‘utf-8’	指定进行采用的编码，该选择默认采用。例如，如果想使用简体中文，可以设置bg2312。当方法中只使用第一个参数时，可以省略前面的"encoding=",直接写编码格式，如：str.encode(“UTF-8”）
errors = ‘strict’	指定错误处理方式，可选值有：1.strict:遇到非法字符抛出异常；2.ignore：忽略非法字符；3.replace:用"?"代替非法字符；4.xmlcharrefreplace:使用xml的字符引用；该参数默认值为strct

注意：使用encode()方法对原字符进行编码时，不会直接修改原字符串，如果

关注