UnicodeEncodeError: ‘utf-8‘ codec can‘t encode characters in position xx-xx: surrogates not allowed

最新推荐文章于 2023-09-05 10:33:30 发布

simple_chenc

最新推荐文章于 2023-09-05 10:33:30 发布

阅读量5.6k

点赞数 2

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/weixin_42008966/article/details/122499327

版权

python 专栏收录该内容

21 篇文章 0 订阅

订阅专栏

在往mongodb中存入数据的时候，报了一个面的错误，

这段错误代码的意思是utf-8没有办法对这个字符串进行解码，因为没有合适的字符映射到该编码，大部分问题出现在字符串中存在类似\uD83C\uDF1D这种以\u开头的字符串，python会认为这是一个unicode编码，于是想办法把它解码成一个字符串，但发现编码映射表中没有这样的字符与之对应（可能这个编码是一个emoji表情），于是就报错：

解决办法为：

s = '\\u0645\\u0639 \\u0634\\u0631\\u0643\\u0629 \\u062a\\u064a\\u0646\\u0632 \\u062a\\u0645\\u062a\\u0639\\u0648 \\u0628\\u0627\\u0644\\u0635\\u062d\\u0647 \\u0648\\u0627\\u0644\\u0646\\u0634\\u0627\\u0637\\ud83d\\ude00 With Teenz company, you enjoy health and activity \\ud83d\\ude00'.encode().decode('unicode_escape')
# print(s) 直接打印输出会报以上错误，需要进行替换，意思是遇到不可unicode解码的字符，就用?替换
s2 = s.encode('utf-8', 'replace').decode()
print(s2)

因为encode的函数原型是encode([encoding], [errors='strict'])，可以用第二个参数控制错误处理的策略，默认的参数就是strict，代表遇到非法字符时抛出异常；
如果设置为ignore，则会忽略非法字符；
如果设置为replace，则会用?取代非法字符；
如果设置为xmlcharrefreplace，则使用XML的字符引用。

这样就会将出错的地方替换为?，而不是抛出一个UnicodeError异常。

参考博客链接：关于python报错 ‘utf-8‘ codec can‘t encode characters in position xxxx-xxxx surrogates not allowed_CCF小彤的博客-CSDN博客

simple_chenc

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
UnicodeEncodeError: ‘utf-8‘ codec can‘t encode characters in position xx-xx: surrogates not allowed

在往mongodb中存入数据的时候，报了一个面的错误，这段错误代码的意思是utf-8没有办法对这个字符串进行解码，因为没有合适的字符映射到该编码，大部分问题出现在字符串中存在类似\uD83C\uDF1D这种以\u开头的字符串，python会认为这是一个unicode编码，于是想办法把它解码成一个字符串，但发现编码映射表中没有这样的字符与之对应（可能这个编码是一个emoji表情），于是就报错：解决办法为：s = '\\u0645\\u0639 \\u0634\\u0631\\u0643\\u0
复制链接

扫一扫