python的中文编码问题

最新推荐文章于 2024-07-20 03:53:09 发布

seanyxie

最新推荐文章于 2024-07-20 03:53:09 发布

阅读量1w

点赞数 2

分类专栏： python 文章标签： python xml encoding file 文档

本文链接：https://blog.csdn.net/seanyxie/article/details/7383232

版权

python 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

我很想就这个问题做个详细的解释，但也许水平有限，解释的不是很清楚，甚至自己理解的都不正确，那么我将长期修改

我使用pyscripter来作为编辑器，首先在pyscriter上打上这么一行代码

运行，我们看到下面的运行结果

然后使用notepad++打开这个python文件，如下截图：

源文件中中文乱码了，并且python运行的结果中文也乱码了

原因：

python源文件默认使用的ascii码作为编码方式，在notepad++中我们查看编码方式，可以发现这点儿，所以中文注释保存的话就乱码了

解决方法：

在pyscripter开头用一行

#_*_encoding:utf-8_*_

这就指明了源文件的编码格式为 utf-8,在运行发现结果如下

使用notepad++打开，发现中文已经不在乱码，并且查看编码方式已经成了utf-8

文件有不同的编码方式，常见的中文编码有utf-8和gb2312两种，那么我们来看python是如何处理中文的！

首先创建两个txt文档，test1.txt和test2.txt，内容都是“你好，世界！”两种分别用utf-8编码保存和ANSI编码保存，中文的ANSI就是gb2312,然后使用pyscripter写代码读取这两个文件，代码如下

运行结果如下:

我们看到使用utf8编码的读取出来已经乱码了，而gb2312编码的却没有乱码，那么是不是python默认打开文件的方式是gb2312呢？我们接着实践，从实践中获取答案，重写代码如下：

运行结果如下：

解释前我们先看下面几个函数：

一、python中与编码有关的函数
1、encode：由unicode编码转换为指定的其他编码。如：txt.encode("gb2312")则txt的表示为unicode->gb2312；txt.encode("utf-8")为unicode->utf-8转换。
2、decode：由指定的其他编码转换为unicode编码。如：txt.decode("gb2312")则txt的表示为gb2312->unicode；txt.decode("utf-8")为utf-8->unicode转换。
3、unicode：与decode相同。如：unicode(txt,"gb2312") 则txt的表示为gb2312->unicode转换。

当然了unicode是不能和ASCII之间转换的

所以不难理解，content1实际是utf8格式的编码，转换为unicode之后就正确显示了，但是为什么直接打印utf8格式的字符串却不行呢？我也不知道哦，那么我们再来试试下面这种方式

运行结果如下:

打开文件 test_utf8.txt文件时候，就指定了文件的编码方式为utf8

在向xml文件中写入中文的时候，如果xml的编码方式问utf-8,打开xml时候要指定xml文件的编码方式为utf-8,

impl = minidom.getDOMImplementation()
dom = impl.createDocument(None, 'Record', None)
root = dom.documentElement
for node_tag in self.record_filed_name:
node = dom.createElement(node_tag)
node.setAttribute("value","")
root.appendChild(node)

f= codecs.open(TEMPLATE_FILE, 'w','utf-8')
dom.writexml(f, addindent=' ',newl='\n',encoding='utf-8')
f.close()

或者使用如下方式来写入中文：

sys.setdefaultencoding('gb18030')

正常的open（）,而不用指定codecs编码格式，也可以。这样的python源文件编码就是gb18030了

似乎minidom不能处理编码方式是gbk的xml，因此建议使用utf-8格式的xml,网上给出了一种处理方法

 
 f 
 = 
 codecs. 
 open 
 (dest_file, 
 'rb' 
 , 
 'gbk' 
 ) 

 
 tmp 
 = 
 f.read().encode( 
 'utf-8' 
 ) 

 
 f.close 

 
 text 
 = 
 tmp.replace( 
 "gb2312" 
 , 
 "UTF-8" 
 ) 

 
 f 
 = 
 open 
 ( 
 'utf8_tmp' 
 , 
 'wb' 
 ) 

 
 f.write(text) 

 
 f.close() 

minidom处理小的xml文件，对于比较大的可能效率比较低，可以使用 elementTree

seanyxie

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录