python实现中文的繁简转换

我们在对中文语料作预处理时,往往会遇到繁简体转换的问题,这也是预处理环节的重要一环。

python支持繁简体转换的库有许多,常用是opencc,但是由于直接安装opencc或是opencc-python现在会遇到许多路径、编译的问题,因此给大家推荐一种安装方式。网址见:https://pypi.org/project/opencc-python-reimplemented/

安装命令:

pip install opencc-python-reimplemented

安装后会显示:

...
Successfully installed opencc-python-reimplemented-0.1.5

调用库的示例demo:

>>> from opencc import OpenCC
>>> a = '我是中国人'
>>> b = OpenCC('s2t').convert(a)
>>> print(b)
我是中國人

如果是对整个文件进行繁简体转换,需要用到文件读写函数,给出我的一个脚本示例:

from opencc import OpenCC

INPUT = open('/data1/usertest/syb/Name-Entity-Recognition/wikiextractor/extracted/AA/wiki_01')
a = INPUT.read()
b = OpenCC('t2s').convert(a)
OUTPUT = open('./zh_wiki_01','w')
OUTPUT.write(b)
OUTPUT.close()

以上给出的示例中都是将繁体转换为简体,即's2t'模式,该库中还支持许多其他模式,如't2s‘(简体到繁体)、's2tw'(简体到台湾标准繁体)、'tw2s'(台湾标准简体到繁体)等。

  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值