Python版本:2.7
IDE:Pycharm2017
报错原因:爬虫一些古老的页面时,解码编码为UTF-8时发生乱码情况,使用GB2312解码进行UTF-8编码时爆发异常,无法完成编码。查询页面原始编码还恰好为GB2312。一头雾水之下开始百度,发现页面中如果少量包含GB2312之外的字符也是可以的,需要使用GB18030去解码,然后编码成UTF-8。具体代码如下:
string.decode('GB18030').encode('utf-8')
本文参照:Junkichan的博客