随着人工智能技术的发展,自然语言处理(NLP)领域中的对话系统逐渐成为研究的热点。为了提升对话系统的性能,需要大量的高质量对话数据来训练和优化模型。然而,中文对话数据相对于英文来说较为稀缺,且质量参差不齐,这限制了中文对话系统的发展。因此,构建大规模、高质量的中文对话数据集成为了一个迫切的需求。
一、研究意义
1、推动中文NLP发展:大规模高质量的中文对话数据集能够为中文自然语言处理领域的研究提供基础资源,促进相关技术的发展。
2、提升对话系统性能:通过在大规模数据集上训练,可以提升对话模型的准确性、流畅性和自然性,使其更接近人类的对话方式。
3、多领域应用:对话数据集可应用于客户服务、智能助手、在线教育等多个领域,提升用户体验。
4、促进预训练模型研究:大规模数据集支持预训练模型的开发,这些模型可以作为其他NLP任务的基础。
二、研究方法
1、数据收集:通过爬取社交媒体、论坛等公开资源,收集大规模的原始对话数据。
2、数据清洗:使用规则和机器学习分类器对原始数据进行清洗,去除无效或低质量的对话,如包含脏字、表情符号、语法错误等。
3、知识图谱构建:将清洗后的数据组织成知识图谱,通过图谱中的节点和边表示对话中的实体和关系。
4、预训练模型开发:基于清洗后的数据集,开发预训练对话生成模型。例如,清华大学推出的CDial-GPT模型,先在大规模中文小说数据集上预训练,然后在对话数据集上进行微调,以生成更自然、流畅的对话。
5、模型评估:在标准对话数据集上评估预训练模型的性能,提供自动和人工评估的结果,帮助用户了解模型的对话生成能力。
6、多模态学习:结合文本、图像等多种类型的数据,提升模型对对话内容的理解和生成能力。
通过上述方法,可以构建出高质量的中文对话数据集,并在此基础上开发出性能优秀的对话模型,为中文NLP领域的发展提供支持。例如,清华大学发布的LCCC数据集和CDial-GPT模型就是这一研究方向的重要成果
数据集:CliMedBench|医疗数据集|语言模型评估数据集
-
创建时间:2024-10-04
-
数据集介绍:CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。
数据集:Traditional-Chinese-Medicine-Dataset-SFT|中医数据集|自然语言处理
-
创建时间:2024-10-02
-
链接地址:Traditional-Chinese-Medicine-Dataset-SFT|中医数据集|自然语言处理数据集
-
数据集介绍:该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。
数据集:huawei-noah/CHARP|对话系统数据集|对话历史理解数据集
-
创建时间:2024-05-30
-
数据集介绍:CHARP是一个诊断测试平台,专门用于评估信息寻求对话系统是否有效地关注和使用对话历史。该数据集通过修改FaithDial验证集中的示例构建,确保与FaithDial最大限度地对齐,并最小化注释成本。CHARP包含两个子集:eCHARP(简单版本)和hCHARP(困难版本),分别对应于对话系统是否需要推理对话历史以响应最后的寻求者。数据集共有2160个示例,每个子集各1080个。
数据集:StyleTalk Dataset - 理解和响应不同说话风格的语音对话数据集
-
创建时间:2024-05-18
-
数据集介绍:StyleTalk数据集由台湾大学构建,它是为了帮助大模型更好地理解和回应不同说话风格而创建。该数据集的训练集包含1,878组对话和1,986个样本,评估集包含486组对话和981个样本,其是首个具有相同对话背景和输入句子但不同说话风格的口语对话基准数据集,并且每种风格都配有相应的表达性口语回应。数据集的创建过程分为三个阶段:首先利用大模型生成带有风格标注的文本对话;其次,通过表达性文本到语音模型合成具有特定风格和韵律控制的语音;最后,通过人工审核确保数据的自然性和质量。StyleTalk数据集旨在促进开发理解并响应不同言语风格的对话系统以及提高大模型对语音模态的理解和响应能力,以增强用户体验。
数据集:ChineseConversationsDataset|中文对话数据集|数据集数据集
-
创建时间:2024-02-29
-
数据集介绍:开放标签-中文对话数据集(OL-CC)。
数据集:zake7749/chinese-speech-corpus|中文对话数据集|语料库数据集
-
更新时间:2023-08-30
-
数据集介绍:该数据集来自SayIt网站,包含1739个对话,约34万句及其对应的发言者。数据集分为训练集,包含1739个样本,总大小为77964319字节。数据集的特征包括句子、发言者和源URL。
数据集:中文对话0.2B小模型 ChatLM-Chinese-0.2B|问答数据集数据集
-
创建时间:2023-08-27
-
数据集介绍:本项目包含多个来自互联网公开的单轮对话数据集,经过数据清洗和格式化处理,用于训练和优化中文对话小模型ChatLM-Chinese-0.2B。主要数据集包括社区问答、百科类问答、医药领域问答等,总数量超过1000万条。
数据集:MedDialog|医疗对话数据集|患者交流数据集
-
创建时间:2023-08-16
-
数据集介绍:MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
数据集:thu-coai/cdconv|中文对话数据集|矛盾检测数据集
-
更新时间:2023-05-08
-
数据集介绍:CDConv数据集是一个用于中文对话中矛盾检测的基准数据集,旨在帮助研究者和开发者评估和改进中文对话系统中的矛盾检测技术。
数据集:MMChat中文开放域多模态对话数据集|多模态对话数据集
-
创建时间:2023-03-24
-
数据集介绍:MMChat是一个大规模多模态多轮对话数据集,其中的每个对话都与一个或多个图片相关联。我们设计了多种策略来确保MMChat中对话的质量,并且为图片和对话的相关性提供了人工标注
数据集:开源对话数据集汇总(中文)|中文对话数据集|指令微调数据集
-
创建时间:2022-07-06
-
数据集介绍:用于汇总目前的开源中文对话数据集
数据集:LCCC|中文对话数据集数据集|自然语言处理数据集
-
创建时间:2020-08-12
-
数据集介绍:本项目提供了一个大规模的经过系统清洗的中文对话数据集,包括LCCC-base和LCCC-large两个部分。LCCC-base数据集较小但更干净,而LCCC-large数据集则更大。数据集的质量通过严格的数据清洗流程得到保证,该流程基于一系列规则和训练有素的过滤器,用于处理包括脏话、敏感词、特殊符号、表情符号、语法错误和无上下文的对话等噪音。
数据集:豆瓣多轮对话数据集|多轮对话数据集|对话系统训练数据集
-
创建时间:2021-09-25
-
数据集介绍:豆瓣多轮对话数据集,用于多轮对话检索模型的训练,训练集100w,验证集5w,测试集1w。
数据集:百度对话语料|对话系统数据集|自然语言处理数据集
-
创建时间:2019-05-25
-
链接地址:百度对话语料
-
数据集介绍:数据集包含百度知道和其他资源,构建了一个这样的一个数据集,4万多个问答对
数据集:chinese-corpus|中文对话数据集|语料库数据集
-
创建时间:2018-06-08
-
数据集介绍:根据ChatterBot语料库和网络小说、古诗词整理的单/多轮中文对话语料库,内容不多,但尽量保证低噪声。