本文以txt 文本为例,只是介绍ANSI,Unicode,UTF-8 三种编码的文件的读写过程,对于编码不做深究了
一、用记事本另存为时,可以选择保存文本使用的的几种编码模式,分别为:
- ANSI:默认保存的编码格式,采用本地操作系统默认的内码,简体中文一般为GB2312。
- Unicode:UTF-16的小端字节序,加上BOM签名:0xFFFE。
- Unicode bigendian:Unicode编码:UTF-16的大端字节序,加上BOM签名:0xFEFF。
- UTF-8:编码格式是:UTF-8,其BOM为0xEF BB BF(UTF-8不区分字节序,这个BOM仅标志UTF-8编码)
Python对于读取的txt文件,最好在读取的时候进行decode成unicode编码,
def read_out(self): with codecs.open(self.filename,