1. OpenCC介绍
Open Chinese Convert(OpenCC)是一个开源的中文简繁转换项目,致力于制作高质量的基于统计预料的简繁转换词库。还提供函数库(libopencc)、命令行简繁转换工具、人工校对工具、词典生成程序、在线转换服务及图形用户界面。
OpenCC具体如下特点
- 严格区分「一简对多繁」、「一简对多异」和「地域用词差别」。
- 支持异体字转换,兼容陆港澳台等不同地区用字差别。
- 严格审校一简对多繁词条,原则为「能分则不合」,用户可自定义合并。
支持中国大陆、台湾、香港异体字和地区习惯用词转换,如「裏」「裡」、「鼠標」「滑鼠」。 - 词库和函数库完全分离,可以自由修改、导入、扩展。
- 支持C、C++、Python、PHP、Node.js等多种语言API,提供命令行直接调用,以及图形界面。
- 兼容Windows、Linux、Mac等多种平台。
2. OpenCC-python
用法请详细参考OpenCC-python in pypi
2.1 安装
pip install opencc-python
2.2 使用示例
#!/usr/bin/env python
#-*- coding: utf8 -*-
import opencc
cc = opencc.OpenCC('t2s')
print cc.convert(u'Open