python中文编码问题

最新推荐文章于 2023-10-13 11:40:24 发布

careyee

最新推荐文章于 2023-10-13 11:40:24 发布

阅读量699

点赞数

分类专栏： python 文章标签： python 正则表达式 vim 编程语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hust_core/article/details/7613974

版权

python 专栏收录该内容

3 篇文章

订阅专栏

在python 中对中文进行处理的时候，往往涉及到编码转换的问题，通常使用以下三种编码格式：

utf-8

gbk

unicode

国内用的比较多的是 gbk 格式， unicode 是一个很好的编码方案，将世界各国的语言进行了统一的编码，美国人后来觉得自己吃了大亏，于是又搞了一种变长编码的 utf-8 的折衷方案。

在 python 中字符串的默认编码是 unicode ，在进行编码转换的时候，一般将 unicode 作为中间编码，即将其他编码的字符串解码为 unicode ，再将 unicode 编码为某个编码格式， python 中相应的函数为 decode 和 encode 。

在 python 中文编码问题中，主要涉及到两点：文件的编码格式和编码声明。

在代码中字符串的默认的编码格式与代码文件的格式是一致的。在 vim 中书写代码的时候，可以通过 set fileencodings 来进行设置，可以同时设置多个编码， vim 会根据顺序来来对文件进行解码。在对字符串进行解码之前，应该确认代码文件的编码格式。

一般在文件的开始都会用下面的形式进行编码声明：

#!/usr/bin/env python

# -*- coding : gbk - *-

即声明编码格式为 gbk ， -*- 是为了美观，可以去掉。 python 解释器就会默认采用声明的编码进行解码。在实际编程过程中，编码声明和文件的编码格式最好一致，当二者出现不一致的时候，往往会出现问题，特别是采用不同的编辑器修改后的文件，编码往往存在着差异。

当输入的中文字符串存在 gbk 编码和 utf-8 编码均有可能时，可以通过 try-except 进行嵌套处理，当在某一个编码下解码时没有触发 except 的时候，即为该编码的编码格式。

在对十六进制的编码进行处理的时候，还会出现转义的问题。在读入编码 \xXX 的过程中， X 代表十六进制字符， \x 会被自动分解成 \ 、 x 、 X 和 X 的单个字符来处理，此时 \ 已经被转义为 \\ ，这样就完全偏离了初衷，就可以通过正则表达式就行替换处理。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。