资源:中英平行语料库--终于等到你

最近一直想用斯坦福大学的代码实现中英翻译,但苦于没有对应的中英文语料库,迟迟得不到好的实验结果。今天,终于发现了共计10M以上的中英语料库,欣喜若狂,打算同大家分享一下:

以下资料都是从一个叫“北极光翻译”的公众号上下载的,只要先关注公众号,再回复小标题内容,就能得到下载链接。

1.白皮书

在公众号后台回复“白皮书”,就能下载8M左右的白皮书翻译。是txt格式的,分为四个文件。

2.春节大礼包

在公众号后台回复“春节大礼包”,就能下载2M左右的政治新闻类语料库。同样是txt格式的,分为三个文件。


除此之外,用中英文电影字幕作语料库也是个不错的选择。因为它保证了句子可以对齐(也就是一句英语对应一句汉语)。我下载了《泰坦尼克号》的txt对照文本,和一部不知道叫什么名字的电影的txt对照文本(暂时取名为King)。这两个资源都只有一百多k。


补充:后来从开源统计机器翻译软件NiuTrans上获得了无需预处理的40M中英平行语料库,已分享至CSDN我的资源中。


文末福利:以上所有的资料都放在我的CSDN里:

http://download.csdn.net/detail/lucygill/9809675

  • 6
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值