中英文语料网址链接

转载
https://blog.csdn.net/qq_30505673/article/details/83348700


中文:

https://github.com/candlewill/Dialog_Corpus 这个是一个集合,包括之前答主的答案!
包含的语料包括了
1)小黄鸡 xiaohuangji50w_nofenci.conv.zip
2)dgk_shooter_min.conv.zip 中文电影对白语料,噪音比较大,许多对白问答关系没有对应好
3)smsCorpus_zh_xml_2015.03.09.zip 包含中文和英文短信息语料,据说是世界最大公开的短消息语料
4)ChatterBot中文基本聊天语料 ChatterBot聊天引擎提供的一点基本中文聊天语料,量很少,但质量比较高
5)Datasets for Natural Language Processing 这是他人收集的自然语言处理相关数据集,主要包含Question Answering,Dialogue Systems, Goal-Oriented Dialogue Systems三部分,都是英文文本。可以使用机器翻译为中文,供中文对话使用
6)白鹭时代中文问答语料 由白鹭时代官方论坛问答板块10,000+ 问题中,选择被标注了“最佳答案”的纪录汇总而成。人工review raw data,给每一个问题,一个可以接受的答案。目前,语料库只包含2907个问答。
7)Chat corpus repository 包括:开放字幕、英文电影字幕、中文歌词、英文推文
8)保险行业QA语料库 通过翻译 insuranceQA产生的数据集。train_data含有问题12,889条,数据 141779条,正例:负例 = 1:10; test_data含有问题2,000条,数据 22000条,正例:负例 = 1:10;valid_data含有问题2,000条,数据 22000条,正例:负例 = 1:10
9)https://github.com/MarkWuNLP/MultiTurnResponseSelection 来自豆瓣的多轮对话
10)http://jddc.jd.com/ 京东比赛
11)http://www.shareditor.com/blogshow/?blogId=112 自己动手做的数据
12) 贴吧对话数据 文件名:tieba.dialogues 保存在网盘中
13)https://www.jianshu.com/p/c1865d2b911c 高质量闲聊(聊天、对话)语料(数据)
14)SMP2017中文人机对话评测数据 https://github.com/HITlilingzhi/SMP2017ECDT-DATA
15) 新浪微博数据集,评论回复短句,下载地址:http://lwc.daanvanesch.nl/openaccess.php
16)http://data.noahlab.com.hk/conversation/ 华为诺亚方舟实验室中文对话语料库
17http://www.mlln.cn/2018/06/02/[%E8%BD%AC]%E5%90%8A%E7%82%B8%E5%A4%A9%E7%9A%84%E4%B8%AD%E6%96%87%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86%E5%B7%A5%E5%85%B7%E5%92%8C%E8%AF%AD%E6%96%99%E5%BA%93%E4%BB%8B%E7%BB%8D/#Corpus-%E4%B8%AD%E6%96%87%E8%AF%AD%E6%96%99
corpus中文语料集
18)ubuntu对话系统数据集 保存在百度网盘中 ubuntu_dataset.zip

英文:

1)https://link.zhihu.com/?target=http%3A//nlp.stanford.edu/projects/kvret/kvret_dataset_public.zip 斯坦福数据集
2)Cornell Movie Dialogs:电影对话数据集,下载地址:http://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html
3) Ubuntu Dialogue Corpus:Ubuntu日志对话数据,下载地址:https://arxiv.org/abs/1506.08909
4) OpenSubtitles:电影字幕,下载地址:http://opus.lingfil.uu.se/OpenSubtitles.php
5) Twitter:twitter数据集,下载地址:https://github.com/Marsan-Ma/twitter_scraper
6) Papaya Conversational Data Set:基于Cornell、Reddit等数据集重新整理之后,好像挺干净的,下载链接:https://github.com/bshao001/ChatLearner
7)https://github.com/niderhoff/nlp-datasets/blob/master/README.md 自然语言处理的免费/公开数据集(https://zhuanlan.zhihu.com/p/35423943 资源比较多,可以看看)

相关数据集的处理代码或者处理好的数据可以参见下面两个github项目:

DeepQA
chat_corpus

others:
电影字幕网站:https://www.zimuku.cn/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
# 说明 该库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作 该库搜集了包含 - chatterbot - 豆瓣多轮 - PTT八卦语料 - 青云语料 - 电视剧对白语料 - 贴吧论坛回帖语料 - 微博语料 - 小黄鸡语料 共8个公开闲聊常用语料和短信,白鹭时代问答等语料。 并对8个常见语料的数据进行了统一化规整和处理,达到直接可以粗略使用的目的。 **使用该项目,即可对所有的聊天语料进行一次性的处理和统一下载,不需要到处自己去搜集下载和分别处理各种不同的格式。* # 环境 python3 # 处理过程 将各个来源的语料按照其原格式进行提取,提取后进行繁体字转换,然后统一变成一轮一轮的对话。 # 使用方法 将解压后的raw_chat_corpus文件夹放到当前目录下 目录结构为 ``` raw_chat_corpus -- language -- process_pipelines -- raw_chat_corpus ---- chatterbot-1k ---- douban-multiturn-100w ---- .... -- main.py -- ... ``` 执行命令即可 ```bash python main.py ``` 或者 ```bash python3 main.py ``` # 生成结果 每个来源的语料分别生成一个独立的*.tsv文件,都放在新生成的clean_chat_corpus文件夹下。 生成结果格式为 tsv格式,每行是一个样本,先是query,再是answer ``` query \t answer ``` # 结果的使用 这个就根据每个人不同的情况自主使用即可 个人对于聊天机器人方向实践也不是很多,以下一篇之前写的知乎专栏供参考 **《从产品完整性的角度浅谈chatbot》** 文章粗略讲解了如下一些方面,介绍了聊天机器人在实际产品化过程中可能遇到的问题和解决办法。 1. chatbot自身人格的设置 1. 产品上线需要考虑的敏感词处理 1. 文本检索模型的使用 1. 文本生成模型的使用 1. 回答打分机制 1. 万能回答的使用策略 1. 多媒体消息的处理 1. 产品模型部署的问题 # 版权说明 本项目为非商业项目,为纯搜集和汇总资料,如有侵权,请在issue下留言。
基于CBOW的中英文语料分析项目结论可能会有以下几点: 1. CBOW模型在处理中英文语料时表现良好。CBOW模型是一种基于上下文预测目标词的神经网络模型,它通过学习上下文中的词向量来捕捉词语之间的语义关系。在中英文语料分析项目中,CBOW模型可以有效地学习到不同语言中词语的语义信息,从而帮助实现更准确的文本理解和处理。 2. CBOW模型可以用于词义消歧。在中英文语料分析项目中,CBOW模型可以通过学习上下文中的词向量来判断一个词在不同上下文中的不同含义。这对于解决词义消歧问题非常有帮助,可以提高文本理解的准确性。 3. CBOW模型可以用于文本分类和情感分析。在中英文语料分析项目中,CBOW模型可以通过学习文本中的词向量来提取特征,并将其用于文本分类和情感分析任务。通过捕捉词语之间的语义关系,CBOW模型可以帮助实现更准确的文本分类和情感分析结果。 4. CBOW模型对于处理大规模语料库也具有良好的扩展性。CBOW模型可以通过并行计算的方式对大规模语料库进行训练,从而缩短训练时间并提高效率。这对于处理中英文语料分析项目中的大规模数据非常重要。 需要注意的是,以上结论是基于CBOW模型在中英文语料分析项目中的应用经验得出的,具体的结论可能会因实际问题和数据集的不同而有所差异。因此,在实际应用中,还需要根据具体情况进行调整和优化。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值