爬虫问题小记 --- UnicodeEncodeError: 'gbk' codec can't encode character '\xa9' in position 25703: illegal

问题:

今天在做爬虫的时候遇到如下问题,提示gbk编码方式无法对字符’\xa9’进行编码。
UnicodeEncodeError: ‘gbk’ codec can’t encode character ‘\xa9’ in position 25703: illegal multibyte sequence

解决:

1、查看爬取网页的编码格式为’utf-8’,我使用的编码也是’utf-8’,此处没有问题;
2、使用print(’\xa9’),得到特殊字符,此字符在utf-8下是可以正常显示的;
在这里插入图片描述
3、综上考虑是在将获得的网页代码保存到本地时出了问题。由于中文windows系统使用gbk作为默认的编码方式,所以部分unicode字符是无法准确的在系统上进行显示的。
此处将写入的txt编码格式从默认的gbk改为utf-8即可正常存储。

注:

在python2中由于python默认的编码方式为ascii码,所以在进行操作时要遵循 'Decode early, Unicode everywhere, Encode late’的原则,各个编码格式显示的使用unicode作为中转。
而python3中的python默认的编码方式为unicode,在使用中会比python2简单很多,但是依然要考虑到操作系统的编码方式对数据存储的影响。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值