[00109]将Unicode文本标准化

将Unicode文本标准化

一、 解决问题

处理Unicode字符串,需要确保所有字符串在底层有相同的表示

二、解决方案

unicodedata 模块

三、代码说明

#!/usr/bin/env python

s1 = 'Spicy Jalape\u00f1o'
s2 = 'Spicy Jalapen\u0303o'
print(s1) #->Spicy Jalapeño
print(s2) #->Spicy Jalapeño
print(s1 == s2) #->False
print(len(s1)) #->14
print(len(s2)) #->15
"""
使用 unicodedata 模块 将文本标准化\

    第一个参数:  
        指定字符串标准化的方式
            NFC:字符应该是整体组成(可能的话,使用单一编码)
            NFD:字符应该分解多个组合字符表示



"""
import unicodedata

t1 = unicodedata.normalize('NFC', s1)
t2 = unicodedata.normalize('NFC', s2)
print (t1 == t2) #->True

t1 = unicodedata.normalize('NFD', s1)
t2 = unicodedata.normalize('NFD', s2)
print (t1 == t2) #->True
# 清除某些变音符
"""
combining() 可以测试一个字符是否为和音字符,

"""
resval = ''.join(c for c in t1 if not unicodedata.combining(c))
print(resval) #->Spicy Jalapeno

四、关联知识

unicode 传送门

五、总结

六、代码地址

github地址:https://github.com/weichen666/python_cookbook
目录/文件:first_selection/learn_collections_counter.py

七、参考

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值