【Python-ERROR】‘gbk‘ codec can‘t encode character ‘\xa0‘ or ‘\u2003‘ in position XXX

最新推荐文章于 2022-10-22 11:11:00 发布

若如初见kk

最新推荐文章于 2022-10-22 11:11:00 发布

阅读量3.4k

点赞数 1

分类专栏：爬虫 python ERROR报错文章标签： python 正则表达式 request 字符串列表

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/artificial_idiots/article/details/121474878

版权

Python在print输出时解码报错

1. 遇到的错误
2. 解决办法
3. 参考文章

1. 遇到的错误

在通过Python爬取网页时，通过print函数输出内容进行调试，但是总会遇到解码不了的字符，试过各种方法都不行，错误代码如下：

‘gbk’ codec can’t encode character ‘\xa0’ in position 8186: illegal multibyte sequence
‘gbk’ codec can’t encode character ‘\u2003’ in position 7254: illegal multibyte sequence

2. 解决办法

1. 提取的信息中有“\xa0”，并且无法去掉，查阅了相关资料，后发现该字符表示空格。

\xa0 是不间断空白符  
我们通常所用的空格是 \x20 ，是在标准ASCII可见字符 0x20~0x7e 范围内。而 \xa0 属于 latin1 （ISO/IEC_8859-1）中的扩展字符集字符，代表空白符nbsp(non-breaking space)。latin1 字符集向下兼容 ASCII （ 0x20~0x7e ）。

可以利用translate方法、split()解决，并且还可以替换\t \n字符，以split()为例：

>>> s

最低0.47元/天解锁文章

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。