在Python处理字符编码时出现如下错误:
UnicodeDecodeError: 'utf8' codec can't decode byte 0xb1 in position 0: invalid start byte
具体业务场景如下:
我读入一个编码为GBK的文件,解析里面的汉字,使用utf-8编码进行正则匹配,出现上述问题
解决方法:
设置python编码为GBK
#encoding=utf8
import sys
reload(sys)
sys.setdefaultencoding('gbk')
参考文献:
[1].http://www.phperz.com/article/14/1222/42448.html