用python处理中文的时候,总是会遇到各种错误,这里稍微整理一下:
1)python读写文档常用的一些语句
f=open('wenjian.txt','r').read() #把整个文件读进来作为整个字符串
f.decode() #把byte类型转换成string类型
f_w=open('replace.txt','wb') #新建一个文件,把需要写的内容写进去
f=f.encode('utf-8') #从string转换成bytes类型
f_w.write(f) #必须要是bytes类型才能写进去
f.decode() #把byte类型转换成string类型
f_w=open('replace.txt','wb') #新建一个文件,把需要写的内容写进去
f=f.encode('utf-8') #从string转换成bytes类型
f_w.write(f) #必须要是bytes类型才能写进去
2)可能出现的一些问题:
举例:“UnicodeDecodeError: 'gbk' codec can't decode byte 0xbf in position 2: illegal multibyte sequence”解决方法:file = open(path, encoding='gbk')
若无法解决,则可能文本中出现的一些特殊符号超出了gbk的编码范围,可以选择编码范围更广的‘gb18030’:
file = open(path, encoding='gb18030')
若还无法解决,说明文中出现了连‘gb18030’也无法编码的字符,可以使用‘ignore’属性忽略非法字符:
file = open(path, encoding='gb18030', errors='ignore')
或者 file=open(path).read().decode('gb18030','ignore')