修复中文无法解码问题之python库Ftfy

时光亦不回首

已于 2022-11-17 09:48:15 修改

阅读量809

点赞数

分类专栏：常见问题及解决方案文章标签： python

于 2022-11-17 09:24:37 首次发布

本文链接：https://blog.csdn.net/qq_43308242/article/details/127889633

版权

常见问题及解决方案同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

python基础

7 篇文章 1 订阅

订阅专栏

安装

pip install ftfy

举例

下面是ftfy所能做的一些例子

tfy可以修复mojibake(编码混合)，通过检测显然是UTF-8但被解码为其他字符的字符的模式：

>>> import ftfy
>>> ftfy.fix_text('âœ” No problems')
'✔ No problems'

这听起来不可能吗? 这真的不是。UTF-8是一种设计良好的编码，当它被误用时很明显，一串mojibake通常包含我们需要恢复原始字符串的所有信息。

Ftfy可以同时修复多层mojibake：

>>> ftfy.fix_text('The Mona Lisa doesnÃƒÂ¢Ã¢â€šÂ¬Ã¢â€žÂ¢t have eyebrows.')
"The Mona Lisa doesn't have eyebrows."

它可以修复已经在上面应用了curly quotes应用在它的顶部，直到这些引号没有卷曲时，才能对其进行一致的解码：

>>> ftfy.fix_text("l’humanitÃ©")
"l'humanité"

ftfy可以修复mojibake，它将包含字符U+A0 (non-breaking space)，但U+A0被转换为ASCII空格，然后与下面的另一个空格组合:

>>> ftfy.fix_text('Ã\xa0 perturber la rÃ©flexion')
'à perturber la réflexion'
>>> ftfy.fix_text('Ã perturber la rÃ©flexion')
'à perturber la réflexion'

ftfy还可以解码HTML实体出现在HTML之外，甚至在实体已被错误大写的情况下：

>>> # by the HTML 5 standard, only 'P&Eacute;REZ' is acceptable
>>> ftfy.fix_text('P&EACUTE;REZ')
'PÉREZ'

这些修复并不适用于所有情况，因为ftfy有一个强烈的目标，即避免误报——它永远不应该将正确解码的文本更改为其他内容。

下面的文本可以在Windows-1252中编码，并以UTF-8解码，它将解码为MARQUɅ。然而，原来的文本已经是合理的，所以它是不变的。

>>> ftfy.fix_text('IL Y MARQUÉ…')
'IL Y MARQUÉ…'

以上的例子都是出自Fity文档中，我这边仅仅只是将其翻译了下，作为案例给大家参考下，具体的大家可以参考下面的文档。

ftfy: fixes text for you

欢迎关注公众号：【时光python之旅】 (在这里你能学到我的所见、所闻、所思、所学)

时光亦不回首

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
修复中文无法解码问题之python库Ftfy

相信大家会时不时的会遇到中文无法解码的问题，今天的这个python库获取能帮助大家解决问题
复制链接

扫一扫

专栏目录