Linux系统(Centos)下使用python脚本处理文本
出现错误:UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position 6: ordinal not in range(128)
解决方法:在python脚本前面加上如下几句
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
加上后,大部分文本能处理,然而并没有什么暖用
又出现错误:UnicodeDecodeError: 'utf8' codec can't decode byte 0xce in position 5: unexpected end of data
解决方法:在读入文本的时候,按utf8解码
f=open("文本路径")
lines=[line.decode('utf-8') for line in f.readlines()]
之后,貌似没有再出现错误了(⊙v⊙)
参考:
http://stackoverflow.com/questions/21129020/how-to-fix-unicodedecodeerror-ascii-codec-cant-decode-byte