python实现中文的繁简转换

我们在对中文语料作预处理时,往往会遇到繁简体转换的问题,这也是预处理环节的重要一环。

python支持繁简体转换的库有许多,常用是opencc,但是由于直接安装opencc或是opencc-python现在会遇到许多路径、编译的问题,因此给大家推荐一种安装方式。网址见:https://pypi.org/project/opencc-python-reimplemented/

安装命令:

pip install opencc-python-reimplemented

安装后会显示:

...
Successfully installed opencc-python-reimplemented-0.1.5

调用库的示例demo:

>>> from opencc import OpenCC
>>> a = '我是中国人'
>>> b = OpenCC('s2t').convert(a)
>>> print(b)
我是中國人

如果是对整个文件进行繁简体转换,需要用到文件读写函数,给出我的一个脚本示例:

from opencc import OpenCC

INPUT = open('/data1/usertest/syb/Name-Entity-Recognition/wikiextractor/extracted/AA/wiki_01')
a = INPUT.read()
b = OpenCC('t2s').convert(a)
OUTPUT = open('./zh_wiki_01','w')
OUTPUT.write(b)
OUTPUT.close()

以上给出的示例中都是将繁体转换为简体,即's2t'模式,该库中还支持许多其他模式,如't2s‘(简体到繁体)、's2tw'(简体到台湾标准繁体)、'tw2s'(台湾标准简体到繁体)等。

  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
批量正体转换chsToCht.bat 1.实现批量TXT文件正体转换体。 2.实现批量TXT文件转换成正体。 3.文件名是体,但内容是正体,则自动重命名为正体加.cht。 4.文件名是正体,但内容是体,则自动重命名为体加.chs。 5.选择转换后是否覆盖原文件。 6.指定转换后的文件存放目录。 7.在指定的目录上级生成日志文件。 批量PDF文件转换为TXT PdfToTxt.bat 1.批量把PDF文件中文字提取到对应的txt文件中。 2.指定转换后的文件存放目录。 3.在指定的目录上级生成日志文件。 批量Word文件转换为TXT WordToTxt.bat 1.批量把Word文件(.doc/.docx)中文字提取到对应的txt文件中。 2.指定转换后的文件存放目录。 3.在指定的目录上级生成日志文件。 批量复制所有的正体文件CopyChtTxt.bat 1.批量把所有文件名以.cht.txt结尾的文件全部提取到指定的目录中。 2.在指定的目录上级生成日志文件。 批量去除空格DleteSpace.bat 1.批量去除TXT文件中隔一个字一个空格的情况。 2.在指定的目录上级生成日志文件。 批量去掉TXT文件名中的非法字符RenameFile.bat 1.批量重命名文件,去除文件名中不规范的字符。 2.在指定的目录上级生成日志文件。 批量以TXT文件的第一行为文件名并去掉非法字符RenameFileFromFile.bat 1.批量以TXT文件内容第一行文件名,并去掉不规范字符为。 2.在指定的目录上级生成日志文件。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值