中英文语料公开数据集大全

用于对话系统的中英文语料数据,点击超链接直接进入即可。

中文电影对白语料,噪音比较大,许多对白问答关系没有对应好

包含中文和英文短信息语料,据说是世界最大公开的短消息语料

ChatterBot聊天引擎提供的一点基本中文聊天语料,量很少,但质量比较高

这是他人收集的自然语言处理相关数据集,主要包含Question Answering,Dialogue Systems, Goal-Oriented Dialogue Systems三部分,都是英文文本。可以使用机器翻译为中文,供中文对话使用

传说中的小黄鸡预料:xiaohuangji50w_fenciA.conv.zip (已分词) 和 xiaohuangji50w_nofenci.conv.zip (未分词)

由白鹭时代官方论坛问答板块10,000+ 问题中,选择被标注了“最佳答案”的纪录汇总而成。人工review raw data,给每一个问题,一个可以接受的答案。目前,语料库只包含2907个问答。

chat corpus collection from various open sources
包括:开放字幕、英文电影字幕、中文歌词、英文推文

通过翻译 insuranceQA产生的数据集。train_data含有问题12,889条,数据 141779条,正例:负例 = 1:10; test_data含有问题2,000条,数据 22000条,正例:负例 = 1:10;valid_data含有问题2,000条,数据 22000条,正例:负例 = 1:10

 

 

  • 2
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
机器翻译是指使用计算机和相关技术将一种自然语言的文本转换成另一种自然语言的过程。为了训练机器翻译模型,需要大量的双语对照数据集。在这个过程,"Manything"是一个虚构的数据集名称。 Manything数据集是由大量的双语平行语料组成的。这些语料包含了多种不同语言之间的对应翻译关系,比如文和英文、法语和德文等等。这些双语对照的句子被用来训练机器翻译模型,从而使机器能够理解不同语言之间的对应关系,并且能够翻译文本。 在Manything数据集,每个语料都是由人类翻译专家或者自动翻译工具生成的。这些专家或工具会提供一种原始语言的句子,并且给出对应的翻译文本。这样,就创建了双语对照的数据集,它可以作为输入来训练机器翻译模型。 通过使用Manything数据集来训练机器翻译模型,可以提高机器翻译的准确性和流畅度。在训练过程,机器翻译模型会学习词汇和语法规则,并且理解不同语言之间的语义关系。这样,在翻译时,模型可以根据已有的知识和经验,将输入文本转换成准确的翻译文本。 Manything数据集的使用对于机器翻译的发展非常重要。它提供了丰富的训练样本,可以帮助模型理解不同语言之间的对应规则。同时,这样的数据集也可以应用在其他自然语言处理任务,比如文本摘要、问答系统等等。通过不断改进和丰富Manything数据集,可以进一步提升机器翻译的性能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

二哥不像程序员

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值