python 去除gbk字符集以外的字符

最新推荐文章于 2024-05-25 17:41:43 发布

枪枪枪

最新推荐文章于 2024-05-25 17:41:43 发布

阅读量2k

点赞数 3

分类专栏： Python

本文链接：https://blog.csdn.net/az9996/article/details/109311240

版权

Python 专栏收录该内容

48 篇文章 2 订阅

订阅专栏

有时候一个文件中的文本会用gbk或utf-8去解码，获取其中的内容，但是有些utf-8能表示的字符，gbk无法表示，所以这里先把gbk不能表示的字符去除，再将文本解码成utf-8后存储为utf-8字符集格式。

如图：
在这里插入图片描述

在这里插入图片描述

原理就是利用了encode函数的errors选项，设置errors=‘ignore’，略过错误字符
在这里插入图片描述

content=u'\uf0b7\ufeff\uf052\uf0a3汉字'

print(content)
print(content.encode('utf-8'))

print(content.encode('gbk',errors='ignore').decode('gbk').encode('utf-8').decode('utf-8'))

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

枪枪枪

关注关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
python 去除gbk字符集以外的字符

有时候一个文件中的文本会用gbk、utf-8去解码，获取其中的内容，但是有些utf-8能表示的字符，gbk无法表示，所以这里先把gbk不能表示的字符去除，再将文本解码成utf-8后存储为utf-8字符集格式。原理就是利用了encode函数的errors选项，设置errors=‘ignore’，略过错误字符content=u'\uf0b7\ufeff\uf052\uf0a3汉字'print(content)print(content.encode('utf-8'))print(content.
复制链接

扫一扫