unicodedata

最新推荐文章于 2024-05-05 21:16:48 发布

想努力的人

最新推荐文章于 2024-05-05 21:16:48 发布

阅读量730

点赞数

分类专栏： python

原文链接：https://woody.style/knowledge-points-of-unicode-in-python/#%E4%B8%80%E4%BA%9B%E5%A4%84%E7%90%86%E5%8A%9E%E6%B3%95

版权

python 专栏收录该内容

42 篇文章 1 订阅

订阅专栏

如果你经常要处理非英文的拉丁语系语言，或者做搜索相关项目，这真是个好用到哭的python内置库。我深有感触。

形如café这种带着重音符号的拉丁文词组，想要当成英文处理，可以用unicodedata库的unicodedata.normalize('NFKD', 'café')，将重音符号挑出来，然后再去掉特殊符号，从而变成ASCII范围内的英文。
unicodedata.normalize第一个参数有4个可选项NFC/NFD/NFKC/NFKD，NFC会把重音符合合并到字母上，NFD相反，会拆分出来，NFKC和NFKD同上，但是会做兼容处理。比如符号’μ’会转成希腊字母’μ’，还有二分之一那个符号(\u00bd)，会被转成1/2。这对于提升搜索体验很有意义。
unicodedata.name(uchar)可以显示特殊字符的名称，也可以用unicodedata.lookup(name)根据名称找到对应的字符。比如
1 2
>>> name(u'\u00bd') 'VULGAR FRACTION ONE HALF'
unicodedata.numeric(uchar)会将内容直接转成对应的数字，比如，这个函数也能将罗马数字、中文数字、中文繁体数字、特殊符号数字都转成标准float类型，如下：
1 2 3 4 5 6 7 8
>>> numeric(u'\u00bd') 0.5 >>> numeric(u'①') 1.0 >>> numeric(u'貮') 2.0 >>> numeric(u'三') 3.0

unicodedata.category(uchar)可以区分字符的类型，有以下几种：

Lu（letter，uppercase）：大写字母。 
Ll（letter，lowercase）：小写字母。 
Lt（letter，titlecase）：词首字母大写的字母。 
Lm（letter，modifier）：修饰符字母字符，它是独立式的间距字符，指示前面字母的修改。 
Lo（letter，other）：不属于大写字母、小写字母、词首字母大写或修饰符字母的字母。 
Nd（number，decimal digit）：十进制数字字符，即范围 0 到 9 内的字符。

想努力的人

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
unicodedata

如果你经常要处理非英文的拉丁语系语言，或者做搜索相关项目，这真是个好用到哭的python内置库。我深有感触。形如café这种带着重音符号的拉丁文词组，想要当成英文处理，可以用unicodedata库的unicodedata.normalize('NFKD', 'café')，将重音符号挑出来，然后再去掉特殊符号，从而变成ASCII范围内的英文。 unicodedata.normalize...
复制链接

扫一扫

专栏目录