平行语料库
-
http://www.manythings.org/anki/=
英语–多国家,其中Chinese - English 21116条 -
https://cms.unov.org/UNCorpus
联合国的语料资源,其中中英txt文件1G多
注意要科学上网 -
http://opus.nlpl.eu/
大多是xml类文件,需要进行解析
-
http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm
哈工大信息检索研究室汉英双语语料库,可以下载10%的样例(完整需发邮件申请),中英语料883KB -
个人预处理得到的中英平行语料库,欢迎下载
https://download.csdn.net/download/weixin_42127182/11522777
共8万对中英语句,已预处理,中文用jieba分了词,保存于data/en-zh.csv,分隔符是制表符\t。
句粒度,但是有不少长句,裁剪一下5w对也够用。原始数据集也在包中,其中en-zh_News.tmx有一些问题,(已丢弃了有问题的句子)
另外附赠我对语料的预处理文件,以及数据集(是pytorch的Dataset)等相关的实现。还是存在一点噪音,如果有可以改善的地方,欢迎留言