【自然语言处理】opencc:中文繁体☞中文简体的转换

在看蚂蚁金服人工智能团队写的一篇关于中文的NLP的论文时,才知道有opencc这么个库,可以将中文繁体转为中文简体,大大简化了处理过程。
如果用的pycharm直接点开解释器,搜opencc,然后install openCC即可。也可以在Terminal通过pip install opencc-python -i https: //pypi.doubanio.com/simple
举个栗子:

import opencc

cc = opencc.OpenCC()
print(cc.convert("「開放中文轉換」,是一個致力於中文簡繁轉換的項目,提供高質量詞庫和函數庫"))
「开放中文转换」,是一个致力于中文简繁转换的项目,提供高质量词库和函数库

可以看下转换效果非常好~
当然,openCC是一个类类型,其构造函数还有个参数为configconfig可取的值有四种,官方文档如下:

t2s - Traditional Chinese to Simplified Chinese
s2t - Simplified Chinese to Traditional Chinese
mix2t - Mixed to Traditional Chinese
mix2s - Mixed to Simplified Chinese

默认情况为t2s,即繁☞简,s2t简☞繁,mix2t与繁体中文混合,mix2s与简体中文混合。

import opencc

cc = opencc.OpenCC('s2t')
print(cc.convert("「开放中文转换」,是一个致力于中文简繁转换的项目,提供高质量词库和函数库"))
「開放中文轉換」,是一個致力於中文簡繁轉換的項目,提供高質量詞庫和函數庫

文本转换的栗子:
原文本:
在这里插入图片描述

import opencc

cc = opencc.OpenCC()
with open("train.txt", encoding='utf-8') as f:
    stringArr = [line.strip().split('\n') for line in f.readlines()]

with open("convert.txt", mode='w', encoding='utf-8') as f:
    for s in stringArr:
        f.write(cc.convert(s[0]+'\n'))

转换后的文本:
在这里插入图片描述

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值