Python处理中文语言——读取中文

最新推荐文章于 2024-08-12 10:27:56 发布

大眼呆萌君

最新推荐文章于 2024-08-12 10:27:56 发布

阅读量2.5w

点赞数 5

分类专栏： Python 文章标签： python BOM

本文链接：https://blog.csdn.net/my_god2008/article/details/52440304

版权

本文详细介绍了如何处理包含中文的文本文件，包括将中文txt转换为unicode，理解unicode、UTF-8和BOM的概念。核心操作是尽早decode、内部统一使用unicode以及最后的late encode。同时，针对Python源码文件中包含中文的情况，提到了在文件头部声明编码的重要性。

摘要由CSDN通过智能技术生成

本文解决问题：

1、导入中文txt文本，并转换为unicode

2、导入包含中文的py file

-----------------------------------解决问题一：导入中文txt文本，并转换为unicode-----------------------------------

1、unicode、UTF-8

简单理解，unicode是一种处理所有非英文语言的编码方式，即将每个语言中的每个文字设置成不同的数字，避免造成混乱。unicode目前覆盖了世界上的主流语言，有超过一百多万个编号。UTF-8是实现unicode的一种方式。ASCII是不同于unicode的另外一种编码方式。详细介绍可见参考文章1。

2、encoding

将文本转化为数字的一系列规则叫作encoding。

核心代码：

string.decode(*encoding*)   # from <type 'str'> to <type 'unicode'>
unicode.encode(*encoding*)   # from <type 'unicode'> to <type 'str'>

关注

专栏目录