爬虫问题小记 --- UnicodeEncodeError: 'gbk' codec can't encode character '\xa9' in position 25703: illegal

问题:

今天在做爬虫的时候遇到如下问题,提示gbk编码方式无法对字符’\xa9’进行编码。
UnicodeEncodeError: ‘gbk’ codec can’t encode character ‘\xa9’ in position 25703: illegal multibyte sequence

解决:

1、查看爬取网页的编码格式为’utf-8’,我使用的编码也是’utf-8’,此处没有问题;
2、使用print(’\xa9’),得到特殊字符,此字符在utf-8下是可以正常显示的;
在这里插入图片描述
3、综上考虑是在将获得的网页代码保存到本地时出了问题。由于中文windows系统使用gbk作为默认的编码方式,所以部分unicode字符是无法准确的在系统上进行显示的。
此处将写入的txt编码格式从默认的gbk改为utf-8即可正常存储。

注:

在python2中由于python默认的编码方式为ascii码,所以在进行操作时要遵循 'Decode early, Unicode everywhere, Encode late’的原则,各个编码格式显示的使用unicode作为中转。
而python3中的python默认的编码方式为unicode,在使用中会比python2简单很多,但是依然要考虑到操作系统的编码方式对数据存储的影响。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
引用\[1\]、\[2\]和\[3\]提供了关于UnicodeEncodeError报错的解决方法。这个错误通常是由于编码问题引起的,即在使用gbk编码时,遇到了无法编码的字符。解决这个问题的方法是将文件编码改为UTF-8。这可以通过在PyCharm中修改文件编码来实现。\[1\]\[2\]\[3\] #### 引用[.reference_title] - *1* [已解决UnicodeEncodeError: ‘gbkcodec can‘t encode character ‘ŗ‘ in position 1: illegal ...](https://blog.csdn.net/yuan2019035055/article/details/126582320)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [UnicodeEncodeError: ‘gbkcodec can‘t encode character ‘\xa0‘ in position 21: illegal multibyte...](https://blog.csdn.net/qq_59544594/article/details/127222466)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [解决python中的UnicodeEncodeError: ‘gbkcodec can‘t encode character ‘\u26ab‘问题](https://blog.csdn.net/m0_56636447/article/details/127637293)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值