python用utf-8直接读取txt文件编码-解决python2.x文件读写编码问题

weixin_39676972

于 2020-11-11 14:21:39 发布

阅读量2.3k

点赞数

在Python2.x中，处理中文文件读写时可能会遇到乱码和UnicodeError。本文通过示例解释了问题原因，并提出了解决方案：使用`decode`和`encode`进行字符串编码转换，或者利用`codecs`模块的`open`方法指定文件编码，以避免编码问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

python2.X版本在处理中文文件读写时经常会遇到乱码或者是UnicodeError错误，正如下面的程序所示:

#coding=utf-8

# test.txt是一个以gbk2312编码（简体中文windows系统中的默认文本编码）的文本文件

# 文本写入

with open("test.txt", "a") as f:

f.write("test") # 正常写入

f.write("测试") # 正常写入,乱码

f.write（u’测试") # 写入错误，触发UnicodeEncodeError异常

# 文本读取

with open("test.txt") as f:

for line in f:

print line, type(line) # 输出test娴嬭瘯,

由于脚本源文件中的字符为utf-8编码，而文本文档中的字符为gb2312编码，所以以str类型字符串直接写入文件，此时str字符串的编码与文件编码不同，导致乱码。直接str类型参数传递给write方法容易导致乱码问题，直接传递Unicode类型字符串作为write的参数，会导致UnicodeEncodeError错误，这是因为python2在写入unicode字符串时会自动尝试转码为ascii编码，而ascii编码并不能处理中文。知道了问题的根源，首先想到的解决方法就是对源字符串按照文件进行编码，保证编码正确。

# 解决方法1

with open("test.txt", "w") as f:

f.write("测试".decode("utf-8").encode("gb2312&

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。