问题:
今天在做爬虫的时候遇到如下问题,提示gbk编码方式无法对字符’\xa9’进行编码。
UnicodeEncodeError: ‘gbk’ codec can’t encode character ‘\xa9’ in position 25703: illegal multibyte sequence
解决:
1、查看爬取网页的编码格式为’utf-8’,我使用的编码也是’utf-8’,此处没有问题;
2、使用print(’\xa9’),得到特殊字符,此字符在utf-8下是可以正常显示的;
3、综上考虑是在将获得的网页代码保存到本地时出了问题。由于中文windows系统使用gbk作为默认的编码方式,所以部分unicode字符是无法准确的在系统上进行显示的。
此处将写入的txt编码格式从默认的gbk改为utf-8即可正常存储。
注:
在python2中由于python默认的编码方式为ascii码,所以在进行操作时要遵循 'Decode early, Unicode everywhere, Encode late’的原则,各个编码格式显示的使用unicode作为中转。
而python3中的python默认的编码方式为unicode,在使用中会比python2简单很多,但是依然要考虑到操作系统的编码方式对数据存储的影响。