关于python报错 ‘utf-8‘ codec can‘t encode characters in position xxxx-xxxx surrogates not allowed

最新推荐文章于 2024-07-07 18:26:01 发布

CCF小彤

最新推荐文章于 2024-07-07 18:26:01 发布

阅读量1.6w

点赞数 10

文章标签： python 字符串

本文链接：https://blog.csdn.net/qq_21555569/article/details/106015581

版权

错误原因

这段错误代码的意思是python没有办法对这个字符串利用utf-8进行解码，因为没有合适的字符映射到该编码，大部分问题出现在字符串中存在类似\uD83C\uDF1D这种以\u开头的字符串，python会认为这是一个unicode编码，于是想办法把它解码成一个字符串，但发现编码映射表中没有这样的字符与之对应（可能这个编码是一个emoji表情）
解决办法

假设含有\u的字符串s，则可以利用
```
s.encode('utf-8', 'replace').decode('utf-8')
```
因为encode的函数原型是encode([encoding], [errors='strict'])，可以用第二个参数控制错误处理的策略，默认的参数就是strict，代表遇到非法字符时抛出异常；
如果设置为ignore，则会忽略非法字符；
如果设置为replace，则会用?取代非法字符；
如果设置为xmlcharrefreplace，则使用XML的字符引用。

这样就会将出错的地方替换为?，而不是抛出一个UnicodeError异常。

有什么不足的地方请大家指出，喜欢的请点个赞哦~~

关注