python处理中文编码、解码的问题

最新推荐文章于 2024-05-22 20:26:52 发布

Jacky-Gemini

最新推荐文章于 2024-05-22 20:26:52 发布

阅读量3k

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/qq_27484763/article/details/80884987

版权

python 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

用python处理中文的时候，总是会遇到各种错误，这里稍微整理一下：

1）python读写文档常用的一些语句

f=open('wenjian.txt','r').read() #把整个文件读进来作为整个字符串
f.decode() #把byte类型转换成string类型
f_w=open('replace.txt','wb') #新建一个文件，把需要写的内容写进去
f=f.encode('utf-8') #从string转换成bytes类型
f_w.write(f) #必须要是bytes类型才能写进去

2）可能出现的一些问题：

举例：“UnicodeDecodeError: 'gbk' codec can't decode byte 0xbf in position 2: illegal multibyte sequence”

解决方法：file = open(path, encoding='gbk')
若无法解决，则可能文本中出现的一些特殊符号超出了gbk的编码范围，可以选择编码范围更广的‘gb18030’：
file = open(path, encoding='gb18030'）
若还无法解决，说明文中出现了连‘gb18030’也无法编码的字符，可以使用‘ignore’属性忽略非法字符：
file = open(path, encoding='gb18030', errors='ignore')
或者 file=open(path).read().decode('gb18030','ignore')

Jacky-Gemini

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python处理中文编码、解码的问题

用python处理中文的时候，总是会遇到各种错误，这里稍微整理一下：1）python读写文档常用的一些语句f=open('wenjian.txt','r').read() #把整个文件读进来作为整个字符串f.decode() #把byte类型转换成string类型f_w=open('replace.txt','wb') #新建一个文件，把需要写的内容写进去f=f.encode('utf-8') #...
复制链接

扫一扫