本文解决问题:
1、导入中文txt文本,并转换为unicode
2、导入包含中文的py file
-----------------------------------解决问题一:导入中文txt文本,并转换为unicode-----------------------------------
基础概念:
1、unicode、UTF-8
简单理解,unicode是一种处理所有非英文语言的编码方式,即将每个语言中的每个文字设置成不同的数字,避免造成混乱。unicode目前覆盖了世界上的主流语言,有超过一百多万个编号。UTF-8是实现unicode的一种方式。ASCII是不同于unicode的另外一种编码方式。详细介绍可见参考文章1。
2、encoding
将文本转化为数字的一系列规则叫作encoding。
核心代码:
string.decode(*encoding*) # from <type 'str'> to <type 'unicode'>
unicode.encode(*encoding*) # from <type 'unicode'> to <type 'str'>
<