最近一直想用斯坦福大学的代码实现中英翻译,但苦于没有对应的中英文语料库,迟迟得不到好的实验结果。今天,终于发现了共计10M以上的中英语料库,欣喜若狂,打算同大家分享一下:
以下资料都是从一个叫“北极光翻译”的公众号上下载的,只要先关注公众号,再回复小标题内容,就能得到下载链接。
1.白皮书
在公众号后台回复“白皮书”,就能下载8M左右的白皮书翻译。是txt格式的,分为四个文件。
2.春节大礼包
在公众号后台回复“春节大礼包”,就能下载2M左右的政治新闻类语料库。同样是txt格式的,分为三个文件。
除此之外,用中英文电影字幕作语料库也是个不错的选择。因为它保证了句子可以对齐(也就是一句英语对应一句汉语)。我下载了《泰坦尼克号》的txt对照文本,和一部不知道叫什么名字的电影的txt对照文本(暂时取名为King)。这两个资源都只有一百多k。
补充:后来从开源统计机器翻译软件NiuTrans上获得了无需预处理的40M中英平行语料库,已分享至CSDN我的资源中。
文末福利:以上所有的资料都放在我的CSDN里:
http://download.csdn.net/detail/lucygill/9809675