问题:UnicodeDecodeError: 'gb2312' codec can't decode bytes in position 33-34: illegal multibyte sequence
原因:虽然查看返回的字符串编码方式是GB2312,但是字符串中如果有繁体字,那么gb2312作为简体中文编码是不能进行解析的。
解决方法:使用国标扩展码gbk,gbk支持繁体中文和日文假文
rawdata = row[u'MR_CONTENT'].decode('gbk') #把gb2312改成gbk
参考:
[1] https://blog.csdn.net/qingyuanluofeng/article/details/46514119