1、判断字符串中是否包含中文
def check_contain_chinese(check_str):
for ch in check_str.decode('utf-8'):
if u'\u4e00' <= ch <= u'\u9fff':
return True
return False
2、判断当前字符串所属语种
import langid
print(langid.classify('卡哇伊!!!'))
--------('zh',-98.31488)
输出结果是一个二元组,二元组的第一项表示该文本所属的语系,如:zh表示中文、en表示英语、等等;二元组的第二项表示该文本中属于第一项中语系的所占比例。
3、繁体简体转换
中文简体和繁体转换所需Python库
1、下载zh_wiki.py 和 langconv
zh_wiki.py:https://github.com/skydark/nstools/blob/master/zhtools/zh_wiki.py
langconv.py:https://github.com/skydark/nstools/blob/master/zhtools/langconv.py
2、将下载的 langconv.py 和 zh_wiki.py,放在Python代码所在目录即可使用
from langconv import *
def simple2tradition(line):
#将简体转换成繁体
line = Converter('zh-hant').convert(line.decode('utf-8'))
line = line.encode('utf-8')
return line
def tradition2simple(line):
# 将繁体转换成简体
line = Converter('zh-hans').convert(line.decode('utf-8'))
line = line.encode('utf-8')
return line