下面这个小工具包含了
判断
unicode
是否是汉字,数字,英文,或者其他字符。
全
角符号转半角符号。
unicode
字符串归一化等工作。
还有一个能处理多音字的汉字转拼音
的程序,还在整理中。
#!/usr/bin/env python
# -*- coding:GBK -*-
"""
汉字处理的工具
:
判断
unicode
是否是汉字,数字,英文,或者其他字符。
全角符号转半角符号。
"""
def is_chinese(uchar):
"""
判断一个
unicode
是否是汉字
"""
if uchar >= u'\u4e00' and uchar<=u'\u9fa5':
return True
else:
return False
def is_number(uchar):
"""
判断一个
unicode
是否是数字
"""
if uchar >= u'\u0030' and uchar<=u'\u0039':
return True
else:
return False
def is_alphabet(uchar):
"""
判断一个
unicode
是否是英文字母
"""
if (uchar >= u'\u0041' and uchar<=u'\u005a') or (uchar >= u'\u0061' and
uchar<=u'\u007a'):
return True
else:
return False
def is_other(uchar):