软件界面中英文对照_语料库相关软件推荐

1.视频教程都指向B站up主Ethan_LSJ,他做的教程较为详细,十分推荐新手观看。

2.本文最后有所有工具的打包分享链接


  • 单语语料库软件  Antconc           

  • 视频教程(https://www.bilibili.com/video/BV1z5411t7FN)

    Laurence Anthony's Antconc ((http://www.laurenceanthony.net/software/antconc/))

    89bd5ac101fac75455258a5daaf39a6a.png

    早稻田大学Laurence Anthony教授开发的免费单语语料库检索软件,覆盖了语料库检索的基本功能(词表、库容、搭配、词串、KWIC等等),但也仅限于此。该软件对于定制化的检索需求支持不够完善,遑论数据分析功能了。要想在语料库研究这条路上走远,对此软件稍作了解即可,Python或R可以复现其全部的功能。

    我不推荐大名鼎鼎的Wordsmith的理由(不否认作者的努力,非常尊重这位老爷子):1.收费,学生们也许舍不得买,教师就无所谓了。2.用户友好度-100,软件的交互逻辑非常离谱,不看说明手册基本无法掌握。3.其大多数功能Antconc都可以实现,实现不了的用Python或R也可以实现,所以实在没必要付费买一款使用起来非常别扭的软件(该软件4.0版本已免费开放,感兴趣的可以下载,注册方式百度查一下便知)。

    关于Antconc的版本问题:个人推荐2018年的3.5.4版本,各版本之间少见质变,看上去区别不大。最新版的Antconc及之前的几个较新版本在读取UTF-8时会出现问题(我不知道和带不带BOM有无关系),而我列出的这个版本及之前更老的版本,在读取ANSI和UTF-8时无任何问题。哪怕你在Global Settings里选的文本编码是UTF-8,它也一样可以顺利加载ANSI,省心。所以推荐3.5.4版本。

  • 双语语料库软件 CUC_Paraconc                

    视频教程 (https://www.bilibili.com/video/BV1wQ4y1T7oU)

    中国传媒大学Hou Min教授开发的一款双语/多语平行语料库检索软件,可以设置中文界面,使用起来非常傻瓜简单。另外,北外也开发了BFSU_Paraconc,功能大同小异,视频教程在此(https://www.bilibili.com/video/BV1Pp4y1y7Ji)。

    88517a596d8cc9f37e4121e8c2198e62.png
  • TMX编辑软件 Heartsome TMX Editor         

  • 视频教程(https://www.bilibili.com/video/BV1jz41187yw?from=search&seid=3181982545451904977)

    b30aa28726e7b74981ec501eb6dcee29.png

    强大的TMX编辑器,可以分割、合并、编辑Tmx格式的文件。

    非常非常适用于语料库、翻译记忆库的制作。

    我主要用此软件来进行tmx和txt格式的转换。对齐后的语料转换后可以在Word里通过“文本转表格”的方式拆为两栏的中英文对照文本,再选中单列导出即可获取单语语料,完成从“平行语料”到“单语语料”的转换。

  • 汉语分词/标注软件 CorpusWordParser         

  • 视频教程(https://www.bilibili.com/video/BV1wf4y1m7RB)

    771527468fff608bf33ed05817559bf8.png

    来自于北外的软件,主要处理中文的分词和词性标注,对汉语语料研究者有帮助(个人认为还是jieba分词包更好一点)。

  • 英文词性标注 TreeTagger

    d81a0d2a5e02359ddcda0f0afcc9fc93.png

    斯坦福出品,英文词性标注,适合研究语法现象,比如学习者语料库研究就会用到。Python中有集成的斯坦福NLP工具包,更全更强大。该软件推荐给研究生同学,毕竟鼠标点点点即可,无需敲代码,简单方便。软件解压后的目录下有“tagset”文件,内有详细的赋码对照说明。

  • 语料对齐 ABBYY_Aligner                             

  • 视频教程(https://www.bilibili.com/video/BV1jz41187yw)

    3e461950c0bff8f435eb32be94e1471b.png

    制作平行语料库时会用到的对齐软件,不过个人感觉Tmxmall的在线对齐效果似乎更好(收费功能),看个人选择了,在线对齐有丢失语料的风险,且大批量对齐时价格不菲。

  • 增加句对标记 Tmx-ParaConV

    21e51467ab308050bfe7837481d2dd14.png

    上交技术大牛管新潮教授用Python编写的软件。

    TMX-ParaConV 是一款免费使用软件,用于把以翻译单位形式(翻译句对)存在的 TMX格式单文件转换为呈双语标记式对应的双文件,借以实现 ParaConc 软件或机器翻译或其他软件的应用。

    该软件可以把tmx文件打上双语句对对齐标记,举个?:

    6781a3c89c4213d666680aa2d329aff7.png
    33363f19c4d85aed4be3ab5aefc132ff.png

    以上图片展示了打标记后的效果,主要是便于各类Paraconc软件检索。

  • 去掉句对标记 Detagging Tool

    71ec0be67bec6bc9901feefaf178daca.png

    如果你拿到一份带着句段标记的文件,想去掉那些"< >"内的seg id标记怎么办呢?

    用Detagging这个小工具就可以解决,选择标记类型后一键去除,文本就恢复如初了,非常方便。

  • 文本转码  TXT全能转码器李亮版

    19403ecb9b970bca85450d65399704c2.png

    吉林师范技术大牛李亮开发,界面非常简洁,打开后就是文件夹选择界面,选好后,还需要选择想转换的编码格式(根据个人用Antconc和一些R包的经验,转成ANSI一般问题不大),如ANSI或UTF-8,新生成的文件会在原文件名前加"_"以示区分。

  • TXT合并/切割  TXT切割合并器

    4501da4ab8eada95985ee0a54fd9d13d.png

    主要用来合并txt文件,如某本书的语料假如有上百个章节,就可按顺序汇总到一个txt里,方便检索。

  • 学术英语搭配工具  LeoColloSharp

    c3240d654c957b4a6a398b3fff12ef0a.png

    在此推荐一个写作小工具,在学术英语写作时大家经常需要思考搭配问题,用了这个小软件,输入你想查询的动词,点击Start后,相关的V+N搭配按照频率排列,一目了然。

    该软件由华中科技大学雷蕾教授(雷神)随手开发,雷神精通Python和R,是语料库技术领域的前沿学者,发表了很多SSCI论文,感兴趣的研究者可以去研究他的文章,定有收获。

    雷神有一本关于R语言做情感分析的新书(剑桥出版社,全英文学术著作),预计2021年出版,提前安利一波。

  • 在线资源 北外语料库工具合集(http://corpus.bfsu.edu.cn/TOOLS.htm)

    各类语料库检索、标注、统计、分析工具的合集,让人眼花缭乱,有兴趣的可以自行探索。

    研究者的科研需求五花八门,工具的开发未必与我们的需求相匹配。

    众多的小工具使用起来需要经常切换,存在诸多不便。

    学习Python or R(其实不用问哪个好,都学就完事了)是语料库研究者的必修课,依赖第三方库/包除了可以实现上述语料库软件的功能外,还可以在机器学习的领域进一步探索。各类统计学方法、自然语言分析方法与语料研究的结合是一片广阔的天地,在将来大有可为。近来外语圈子兴起的“新文科”、“数字人文”等概念正呼应了这一趋势。

  • 以上工具的合集分享

    链接:https://pan.baidu.com/s/10Y3HwbJ4myN04n5Zy2zrEA 提取码:0pex 复制这段内容后打开百度网盘手机App,操作更方便哦


    以后会不定期分享Python or R的语料处理技术,敬请期待。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值