语料库整理(机器翻译等用)

平行语料库
  1. http://www.manythings.org/anki/=
    英语–多国家,其中Chinese - English 21116条

  2. https://cms.unov.org/UNCorpus
    联合国的语料资源,其中中英txt文件1G多
    在这里插入图片描述
    注意要科学上网

  3. http://opus.nlpl.eu/
    大多是xml类文件,需要进行解析
    中英语句对

  4. http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm
    哈工大信息检索研究室汉英双语语料库,可以下载10%的样例(完整需发邮件申请),中英语料883KB

  5. 个人预处理得到的中英平行语料库,欢迎下载
    https://download.csdn.net/download/weixin_42127182/11522777
    共8万对中英语句,已预处理,中文用jieba分了词,保存于data/en-zh.csv,分隔符是制表符\t。
    句粒度,但是有不少长句,裁剪一下5w对也够用。原始数据集也在包中,其中en-zh_News.tmx有一些问题,(已丢弃了有问题的句子)
    另外附赠我对语料的预处理文件,以及数据集(是pytorch的Dataset)等相关的实现。还是存在一点噪音,如果有可以改善的地方,欢迎留言

  • 8
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值