Python每日一练0015

最新推荐文章于 2024-07-08 13:21:13 发布

wangb0asdas1

最新推荐文章于 2024-07-08 13:21:13 发布

阅读量111

点赞数

分类专栏： python每日一练文章标签： python

本文链接：https://blog.csdn.net/wangb0asdas1/article/details/79888924

版权

python每日一练专栏收录该内容

25 篇文章 4 订阅

订阅专栏

问题

如何比较两个字面一样，但字节不一样的字符串

例如：

>>> a = u'\u4eba\u53e3\u3058\u3093\u3053\u3046\u306b\u81be\u7099\u304b\u3044\u3057\u3083\u3059\u308b'
>>> b = u'\u4eba\u53e3\u3058\u3093\u3053\u3046\u306b\u81be\uf9fb\u304b\u3044\u3057\u3083\u3059\u308b'
>>> print(a, b, sep='\n')
人口じんこうに膾炙かいしゃする
人口じんこうに膾炙かいしゃする

这里的a和b字符串是一样的，但仔细观察可以发现，其中a字符串是\u7099，b字符串对应的是\uf9fb

所以虽然a和b是字面上一模一样的字符串，但a实际上和b是不等的

>>> a == b
False

解决方案

使用unicodedata库的normalize将两个字符串标准化后，再进行比较就可以了

>>> import unicodedata
>>> normalize_a = unicodedata.normalize('NFC', a)
>>> normalize_b = unicodedata.normalize('NFC', b)
>>> print(normalize_a)
人口じんこうに膾炙かいしゃする
>>> print(normalize_b)
人口じんこうに膾炙かいしゃする
>>> print(normalize_a == normalize_b)
True