大语言模型数据集（三）

babyzbb636

已于 2023-10-19 17:13:52 修改

阅读量779

点赞数 2

文章标签：数据集

于 2023-10-19 16:14:39 首次发布

垂直领域NLP相关的数据集

有个开源整理数据集简直太赞了

GitHub - CLUEbenchmark/CLUEDatasetSearch: 搜索所有中文NLP数据集，附常用英文NLP数据集

一、医疗领域

(一）、中文医疗信息处理基准数据集

l 数据集名称：中文医疗信息处理挑战榜CBLUE数据集

l 数据集提供者：中国中文信息学会医疗健康与生物信息处理专业委员会、阿里云天池平台

l 数据集介绍：

中文医疗信息处理挑战榜CBLUE数据集 (Chinese Biomedical Language Understanding Evaluation)是中国中文信息学会医疗健康与生物信息处理专业委员会在合法开放共享的理念下发起，由阿里云天池平台承办，并由医渡云（北京）技术有限公司、平安医疗科技、阿里夸克、腾讯天衍实验室、北京大学、鹏城实验室、哈尔滨工业大学（深圳）、郑州大学、同济大学、中山大学、复旦大学等开展智慧医疗研究的单位共同协办，旨在推动中文医学NLP技术和社区的发展。

综合考虑了任务类型和任务难度两个维度，目标是建设一个任务类型覆盖广、同时也要保证任务的难度的benchmark，因此吸收往届CHIP/CCKS/CCL等学术评测任务的同时也适当增加了业界数据集，业务数据集的特点是数据真实且有噪音，对模型的鲁棒性提出了更高的要求。CBLUE评测基准2.0包括医学文本信息抽取（实体识别、关系抽取、事件抽取）、医学术语归一化、医学文本分类、医学句子关系判定和医疗对话理解与生成共5大类任务14个子任务。

l 数据集地址：https://tianchi.aliyun.com/dataset/dataDetail?dataId=95414

l 相关刷榜的baseline代码：https://github.com/CBLUEbenchmark/CBLUE

(二）、命名实体识别相关数据集

1. Yidu-S4K：医渡云结构化4K数据集

l 数据集名称：Yidu-S4K：医渡云结构化4K数据集

l 数据集提供者：医渡云

l 数据集介绍：

Yidu-S4K 数据集源自CCKS 2019 评测任务一，即“面向中文电子病历的命名实体识别”的数据集，包括两个子任务：

1）医疗命名实体识别：由于国内没有公开可获得的面向中文电子病历医疗实体识别数据集，本年度保留了医疗命名实体识别任务，对2017年度数据集做了修订，并随任务一同发布。本子任务的数据集包括训练集和测试集。

2）医疗实体及属性抽取（跨院迁移）：在医疗实体识别的基础上，对预定义实体属性进行抽取。本任务为迁移学习任务，即在只提供目标场景少量标注数据的情况下，通过其他场景的标注数据及非标注数据进行目标场景的识别任务。本子任务的数据集包括训练集（非目标场景和目标场景的标注数据、各个场景的非标注数据）和测试集（目标场景的标注数据）。

l 数据集地址：http://openkg.cn/dataset/yidu-s4k

l 数据百度云盘下载地址：https://pan.baidu.com/s/1QqYtqDwhc_S51F3SYMChBQ 提取码：flql

2. 瑞金医院糖尿病数据集

l 数据集名称：瑞金医院糖尿病数据集

l 数据集提供者：瑞金医院、阿里云天池平台

l 数据集介绍：

数据集来自天池大赛。此数据集旨在通过糖尿病相关的教科书、研究论文来做糖尿病文献挖掘并构建糖尿病知识图谱。参赛选手需要设计高准确率，高效的算法来挑战这一科学难题。第一赛季课题为“基于糖尿病临床指南和研究论文的实体标注构建”，第二赛季课题为“基于糖尿病临床指南和研究论文的实体间关系构建”。

类别名称和定义
疾病相关：
1）、疾病名称 (Disease)，如I型糖尿病。
2）、病因(Reason)，疾病的成因、危险因素及机制。比如“糖尿病是由于胰岛素抵抗导致”，胰岛素抵抗是属于病因。
3）、临床表现 (Symptom)，包括症状、体征，病人直接表现出来的和需要医生进行查体得出来的判断。如"头晕" "便血" 等。
4）、检查方法(Test)，包括实验室检查方法，影像学检查方法，辅助试验，对于疾病有诊断及鉴别意义的项目等，如甘油三酯。
5）、检查指标值(Test_Value)，指标的具体数值，阴性阳性，有无，增减，高低等，如”>11.3 mmol/L”。
治疗相关：
6）、药品名称(Drug)，包括常规用药及化疗用药，比如胰岛素。
7）、用药频率(Frequency)，包括用药的频率和症状的频率，比如一天两次。
8）、用药剂量（Amount），比如500mg/d。
9）、用药方法（Method）：比如早晚，餐前餐后，口服，静脉注射，吸入等。
10）、非药治疗(Treatment)，在医院环境下进行的非药物性治疗，包括放疗，中医治疗方法等，比如推拿、按摩、针灸、理疗，不包括饮食、运动、营养等。
11）、手术（Operation），包括手术名称，如代谢手术等。
12）、不良反应（SideEff），用药后的不良反应。

常规实体：
13）、部位（Anatomy），包括解剖部位和生物组织，比如人体各个部位和器官，胰岛细胞。
14）、程度（level），包括病情严重程度，治疗后缓解程度等。
15）、持续时间(Duration)，包括症状持续时间，用药持续时间，如“头晕一周”的“一周”。
评估标准：采用F1-Measure作为评测指标。

l 数据集地址：https://tianchi.aliyun.com/competition/entrance/231687/information

l 数据百度云盘下载地址：https://pan.baidu.com/s/1CWKblBNBqR-vs2h0xiXSdQ 提取码：0c54

3. Yidu-N7K：医渡云标准化7K数据集

l 数据集名称：Yidu-N7K：医渡云标准化7K数据集

l 数据集提供者：医渡云

l 数据集介绍：

Yidu-N4K 数据集源自CHIP 2019 评测任务一，即“临床术语标准化任务”的数据集。

本数据集是根据真实的病历分布由医渡云医学人工编辑而成，临床术语标准化任务是医学统计中不可或缺的一项任务。临床上，关于同一种诊断、手术、药品、检查、化验、症状等往往会有成百上千种不同的写法。标准化（归一）要解决的问题就是为临床上各种不同说法找到对应的标准说法。有了术语标准化的基础，研究人员才可对电子病历进行后续的统计分析。本质上，临床术语标准化任务也是语义相似度匹配任务的一种。但是由于原词表述方式过于多样，单一的匹配模型很难获得很好的效果。

l 数据集地址：http://openkg.cn/dataset/yidu-n7k

4. 科大讯飞-医疗实体及关系识别数据集

l 数据集名称：科大讯飞-医疗实体及关系识别数据集

l 数据集提供者：科大讯飞

l 数据集介绍：

电子病历是医疗机构对门诊、住院患者进行临床治疗和指导干预的数字化医疗服务工作记录，包含了大量的患者医学信息。医技报告单是电子病历十分重要组成部分，其中包含了患者详细的检查检验信息，如超声、CT和磁共振等。但是，医技报告单是一种半结构化的数据，不同医生的表述风格不一致，文本形式缺乏统一的规范，因此将其中非结构化的部分转换为结构化的信息是非常重要的，可以有效的提高医生工作效率，优化医疗机构流程。医技领域的命名实体和实体关系识别是目前的研究热点之一，同时也是电子病历信息抽取的重要研究内容。评测任务包含医学实体识别+医学关系抽取。

数据集中共有18个标签,部分标签定义如下：

1) 症状：疾病过程中机体内的一系列机能、代谢和形态结构异常变化所引起的病人主观上的异常感觉或某些客观病态改变称为症状

2) 部位：部位是指人体部位器官

3) 性质：发生频率、次数、分布、形状、大小、量、颜色、气味、程度等表达修饰意义的词或短句

4) 非异常发现：人体正常的表现或生理现象以及含否定词的症状类描述

5) 发病时间：不仅仅指疾病和症状发生的时间，包含检查检验、原发病史、诱因、症状、变化因素、转归等所有的时间

6) 诱因：诱因指导致症状、原发病史发生的原因

7) 否定诱因：否定诱因是为了排除某些可能导致疾病或症状的因素。

预定义关系类别为实体之间关系类型有两种，“属性”关系和“无”关系。

数据集的情况：

1）训练集约4000条中文标注数据

2）测试集A约1000条数据

3）测试集B约1000条数据

l 数据集地址：https://challenge.xfyun.cn/topic/info?type=medical-entity&option=phb

(三）、QA问答数据集

1. 中文医患问答对话数据

l 数据集名称：中文医患问答对话数据

l 数据集提供者：好大夫在线

l 数据集介绍：

医疗对话系统有望帮助远程医疗增加获得医疗保健服务，提高患者护理质量，降低医疗成本。促进医疗对话系统的研发，目前建立了大型医学对话数据集：MedDialog-CN。

MedDialog 数据集（中文）包含医生和患者之间的对话（中文）。它有110 万条对话和400万条话语，是最大的医疗迄今为止的对话数据集。并且数据在不断增长，将添加更多对话。详细的，MedDialog-CN 数据集包含 1145231 次中国患者和医生。话语总数为 3959333：2179008 来自医生，1780325 来自患者。每次会诊由三部分组成：(1) 患者就诊情况描述状况和历史；（2）医患对话；(3)（可选）诊断以及医生给出的治疗建议。在患者的医疗说明中病情和病史，包括以下字段：现病、详细描述现在的病，需要医生什么帮助，病多久了，等等。

l 相关项目地址：https://github.com/UCSD-AI4H/Medical-Dialogue-System

l 数据百度云盘下载地址：https://pan.baidu.com/s/1ZwzNgvAAMQk4klerTspsoA提取码：lbo4

2. 新冠肺炎问句匹配数据集

l 数据集名称：新冠肺炎问句匹配数据集

l 数据集提供者：医疗服务机构妙健康、阿里云天池平台

l 数据集介绍：

本数据集为疫情相关的呼吸领域的真实数据积累，数据粒度更加细化，判定难度相比多科室文本相似度匹配更高，同时问答数据也更具时效性。本着宁缺毋滥的原则，问题的场地限制在20字以内，形成相对规范的句对。要求选手通过自然语义算法和医学知识识别相似问答和无关的问题。

数据集包括：脱敏之后的医疗问题数据对和标注数据。医疗问题涉及“肺炎”、“支原体肺炎”、“支气管炎”、“上呼吸道感染”、“肺结核”、“哮喘”、“胸膜炎”、“肺气肿”、“感冒”、“咳血”等10个病种。

数据集共包含train.csv、dev.csv、test.csv三个文件。每一条数据由Id, Category，Query1，Query2，Label构成，分别表示问题编号、类别、问句1、问句2、标签。Label表示问句之间的语义是否相同，若相同，标为1，若不相同，标为0。其中，训练集、验证集Label已知，测试集Label未知。

示例：
类别：肺炎
问句1：肺部发炎是什么原因引起的？
问句2：肺部发炎是什么引起的
标签:1

l 数据集地址：https://tianchi.aliyun.com/competition/entrance/231776/information

3. 平安医疗疾病问答比赛数据集

l 数据集名称：平安医疗疾病问答比赛数据集

l 数据集提供者：平安医疗科技

l 数据集介绍：

针对中文疾病问答的数据集，可进行病种间的迁移学习。所有语料来自互联网上患者真实的问题，并经过了筛选和人工的意图匹配标注。

数据集由train.csv、dev.csv、test.csv三个文件构成：

train.csv是训练集，包含2万对人工标注好的疾病问答数据，由5个病种构成，其中diabetes10000对，hypertension、hepatitis、aids、breast_cancer各2500对；dev.csv是验证集，包含10000对无label的疾病问答数据，由5个病种构成，其中diabetes，hypertension、hepatitis、aids、breast_cancer各2000对；test.csv是测试集，包含5万对人工标注好的疾病问答数据，其中只有部分数据供验证。

category表示问句对的病种名称，分别对应：
diabetes-糖尿病，hypertension-高血压，hepatitis-乙肝，aids-艾滋病，breast_cancer-乳腺癌。
label表示问句之间的语义是否相同。若相同，标为1，若不相同，标为0。
其中，训练集label已知，验证集和测试集label未知。

数据示例
问句1:糖尿病吃什么？
问句2:糖尿病的食谱？
label:1

问句1:乙肝小三阳的危害？
问句2:乙肝大三阳的危害？
label:0

l 数据集地址：https://www.biendata.com/competition/chip2019/

4. 中文医学问答数据集

l 数据集名称：中文医学问答数据集

l 数据集提供者：好大夫在线

l 数据集介绍：

中文医药方面的问答数据集，超过10万条。

数据说明：

questions.csv：所有的问题及其内容。
answers.csv ：所有问题的答案。
train_candidates.txt， dev_candidates.txt， test_candidates.txt ：将上述两个文件进行了拆分。

l 数据集地址：https://www.heywhale.com/mw/dataset/5d313070cf76a60036e4b023/file

l 相关论文地址：https://www.mdpi.com/2076-3417/7/8/767

5. 中文医学QA意图理解数据集

l 数据集名称：中文医学QA意图理解数据集

l 数据集提供者：好大夫在线

l 数据集介绍：

该数据集用于中国医疗质量保证意图理解任务。所有数据都存储在JSON文件中。文件中有5个字段。示例如下：

{

"originalText": "间质性肺炎的症状?",

"entities": [{"label_type": "疾病和诊断", "start_pos": 0, "end_pos": 5}],

"seg_result": ["间质性肺炎", "的", "症状", "?"],

"label_4class": ["病症"],

"label_36class": ["临床表现"]

}

其中，“originalText”字段保存输入信息。“实体”字段保存具有深度学习模型的命名实体识别信息。实体标签遵循CCKS2019 Task1标准。

“seg_result”字段保存句子分割后的信息。“label_4class”字段保存手动注释的医疗意图分类信息。“label_36class”字段保存手动注释的医疗意图分类信息。

label_4class是包含以下内容的主要类型：病症、药物、治疗方案、其他。

label_36class是包含以下内容的辅助类型：

病症：定义，病因，临床表现，相关病症，治疗方法，推荐医院，预防，所属科室，禁忌，传染性，治愈率，严重性；

药物：作用，适用症，价钱，药物禁忌，用法，副作用，成分；

治疗方案：方法，费用，有效时间，临床意义/检查目的，治疗时间，疗效，恢复时间，正常指标，化验/体检方案，恢复；

其他：设备用法，多问，养生，整容，两性，对比，无法确定。

l 数据集地址：https://github.com/liutongyang/CMID

6. 中文医疗对话数据集

l 数据集名称：中文医疗对话数据集

l 数据集提供者：中国中文信息学会医疗健康与生物信息处理专业委员会

l 数据集介绍：

Data_数据中有6个文件夹分别是: <Andriatria_男科> 94596个问答对 <IM_内科> 220606个问答对 <OAGD_妇产科> 183751个问答对 <Oncology_肿瘤科> 75553个问答对 <Pediatric_儿科> 101602个问答对 <Surgical_外科> 115991个问答对总计792099个问答对。

每个文件夹下有一个csv文件，其中的数据格式为:

department	title	ask	answer
心血管科	高血压患者能吃党参吗？	我有高血压这两天女婿来的时候给我拿了些党参泡水喝，您好高血压可以吃党参吗？	高血压病人可以口服党参的。党参有降血脂，降血压的作用，可以彻底消除血液中的垃圾，从而对冠心病以及心血管疾病的患者都有一定的稳定预防工作作用，因此平时口服党参能远离三高的危害。另外党参除了益气养血，降低中枢神经作用，调整消化系统功能，健脾补肺的功能。感谢您的进行咨询，期望我的解释对你有所帮助。
消化科	哪家医院能治胃反流	烧心，打隔，咳嗽低烧，以有4年多	建议你用奥美拉唑同时，加用吗丁啉或莫沙必利或援生力维，另外还可以加用达喜片

l 数据集地址：https://github.com/Toyhom/Chinese-medical-dialogue-data/tree/master/Data_%E6%95%B0%E6%8D%AE

（四）、知识图谱/关系提取数据集

1. 医疗知识图谱数据集

l 数据集名称：医疗知识图谱数据集

l 数据集提供者：OpenKG

l 数据集介绍：

ownthink开源了史上最大规模1.4亿知识图谱数据集，数据是以（实体、属性、值），（实体、关系、实体）混合的形式组织，数据格式采用csv格式。

l 数据百度云盘下载地址：https://pan.baidu.com/s/1LZjs9Dsta0yD9NH-1y0sAw 提取码: 3hpp

2. 病人事件图谱数据集

l 数据集名称：病人事件图谱数据集

l 数据集提供者：华东理工大学

l 数据集介绍：

病人事件图谱是一种新的基于RDF的医疗观察性数据表示模型，可以清晰地表示临床检查、诊断、治疗等多种事件类型以及事件的时序关系。使用三家上海三甲医院的电子病历数据，构建了包括3个专科、173395个医疗事件、501335个事件时序关系以及与5313个知识库概念链接的医疗数据集。

l 数据集地址：http://openkg.cn/dataset/peg

3. 瑞金医院人工智能辅助构建知识图谱数据集

l 数据集名称：瑞金医院人工智能辅助构建知识图谱数据集

l 数据集提供者：瑞金医院、阿里云天池平台

l 数据集介绍：

数据集由上海交通大学医学院附属瑞金医院与阿里云联合发起主办，以人工智能辅助糖尿病知识图谱构建为题，通过糖尿病相关的教科书、研究论文来进行糖尿病文献挖掘并构建糖尿病知识图谱。
糖尿病是代谢性疾病，也是慢性疾病，中国是世界上糖尿病患者最多的国家，病人达到1.1亿，每年有130万人死于糖尿病及其相关疾病。糖尿病病因复杂，表现出的症状多种多样，这为糖尿病的诊断和治疗带来了很大的困难。旨在通过糖尿病相关的教科书、研究论文来做糖尿病文献挖掘并构建糖尿病知识图谱。

l 数据集地址：https://tianchi.aliyun.com/competition/entrance/231687/information

4. 中文医学知识图谱数据

l 数据集名称：中文医学知识图谱数据

l 数据集提供者：北京大学计算语言学研究所、郑州大学自然语言处理实验室与鹏城实验室

l 数据集介绍：

CMeKG（Chinese Medical Knowledge Graph）是利用自然语言处理与文本挖掘技术，基于大规模医学文本数据，以人机结合的方式研发的中文医学知识图谱。CMeKG的构建参考了ICD、ATC、SNOMED、MeSH等权威的国际医学标准以及规模庞大、多源异构的临床指南、行业标准、诊疗规范、医学教材与医学百科等医学文本信息。继2019年1月份发布CMeKG 1.0之后，课题组进行了多维度、多层次的扩展与深化，形成了CMeKG2.0。CMeKG2.0的主要目标是建立大规模、高质量的医学知识基础集，同时在描述体系、构建工具、展示平台、示范应用等方面进行积累与完善。与CMeKG1.0相比，CMeKG2.0扩大了医学知识的覆盖面，提高了其描述信息的丰富程度，同时在标准化、规范化和国际化方面进行了提升。内容层面，CMeKG2.0对多源异构的医学资源进行了人机交互的知识提取与知识融合，新增了症状类知识，并对儿科疾病进行详细描述，从而建立了大规模、高质量的医学知识基础集，实现了疾病、症状、药物、诊疗技术之间广泛的知识关联。CMeKG2.0目前包含1万余种疾病、近2万种药物、1万余个症状、3千种诊疗技术的结构化知识描述，描述医学知识的概念关系及属性三元组达156万。此外，CMeKG2.0还增加了基于就诊科室的疾病分类体系和基于ICD编码的疾病分类体系，并实现了与UMLS的映射与链接。工具层面，CMeKG2.0开发了医学文本分析与知识提取工具，可针对多种类型的医学文本进行自动分析与知识提取。CMeKG2.0也增加了医学知识问答、妇儿健康宣教等示范应用，在医学知识图谱的应用方面进行了探索。

l 数据集地址：http://cmekg.pcl.ac.cn/

5. herbnet

l 数据集名称：herbnet数据集

l 数据集提供者：中国中医科学院中医药信息研究所

l 数据集介绍：

面向中药研究，根据中药领域模型的特点，构建了一个包括中医疾病，方剂，中药，中药化学成分，药理作用，中药实验，化学实验方法在内的中药本体。进而，基于本体实现了一系列数据库的集成，从而构建了一个中药知识图谱。

l 数据集地址：http://openkg.cn/dataset/herb-net

6. 新冠知识图谱构建与问答

l 数据集名称：新冠知识图谱构建与问答数据集

l 数据集提供者：全国知识图谱与语义计算大会

l 数据集介绍：

受限于非结构化文本和结构化知识之间的巨大差异，自动化构造知识图谱以及利用知识图谱支持上层应用仍存在诸多挑战。时值2020年新型冠状病毒疫情爆发，在OpenKG总体组织和协调下，部分相关企业院校使用自动化的技术，以新型冠状病毒为核心构建了包括新冠百科、健康、防控等多个高质量的知识图谱，并于此针对知识图谱构建的关键技术及其核心应用。
本任务包括四个子任务：1）新冠百科知识图谱类型推断：围绕新冠百科知识图谱构建中的实体类型推断展开。评测从实体百科页面出发，从给定的数据中推断相关实体的类型。2）新冠概念图谱的上下位关系预测：针对传统知识图谱对实体的概念类别体系定义有限的问题，动态的获取实体的概念类别。3）新冠科研抗病毒药物图谱的链接预测：基于抗病毒药物图谱进行关系预测，如药物和病毒的靶向作用、蛋白间的交互作用等。评测依据抗病毒药物图谱模式（Schema）和知识图谱的实体、实体属性、实体之间的关系，预测新的两个实体的关系。4）新冠百科知识图谱问答评测：本次知识图谱问答任务是在CCKS上举办的第三届，在OpenKG上的新冠开放知识图谱基础上，以新型冠状病毒为切入点悉心构造了一定规模的针对健康、医药、疾病防控等特定主旨的问答数据。

l 数据集与项目地址：https://github.com/WangShengguang/ccks-2020

（五）、相似句对判断

1. 新冠疫情相似句对判定数据集

l 数据集名称：新冠疫情相似句对判定数据集

l 数据集提供者：全国知识图谱与语义计算大会

l 数据集介绍：

面对疫情抗击，疫情知识问答应用得到普遍推广。如何通过自然语言技术将问答进行相似分类仍然是一个有价值的问题。如识别患者相似问题，有利于理解患者真正诉求，帮助快速匹配准确答案，提升患者获得感；归纳医生相似答案，有助于分析答案规范性，保证疫情期间问诊规范性，避免误诊。

本次数据是由达摩院联合医疗服务机构妙健康发布疫情相似句对判定数据集。比赛整理近万条真实语境下疫情相关的肺炎、支原体肺炎、支气管炎、上呼吸道感染、肺结核、哮喘、胸膜炎、肺气肿、感冒、咳血等患者提问句对，要求通过自然语言处理技术识别相似的患者问题。

l 数据集与项目地址：https://tianchi.aliyun.com/competition/entrance/231776/information

（六）、文本分类

1. 临床试验筛选标准短文本分类数据集

l 数据集名称：临床试验筛选标准短文本分类数据集

l 数据集提供者：第五届中国健康信息处理会议

l 数据集介绍：

临床试验是指通过人体志愿者也称为受试者进行的科学研究，筛选标准是临床试验负责人拟定的鉴定受试者是否满足某项临床试验的主要指标，分为入组标准和排出标准，一般为无规则的自由文本形式。临床试验的受试者招募一般是通过人工比较病历记录表和临床试验筛选标准完成，这种方式费时费力且效率低下。因此，临床试验面临诸多困境，比如受试者招募难度大，招募时间久，患者流失等等。通过自然语言处理和机器学习的方法对临床试验筛选标准自动解析，并以此构建自动化筛选病人的系统是一个很有前景的研究热点，具有很大的实际应用前景和医学临床价值。

本次评测任务的主要目标是针对临床试验筛选标准进行分类，所有文本数据均来自于真实临床试验，经过了初步处理和人工标注。

在数据集中，给定事先定义好的44种筛选标准语义类别和一系列中文临床试验筛选标准的描述句子，参赛者需返回每一条筛选标准的具体类别。

示例如下：

ID	输入(筛选标准)	输出(类别)
S1	年龄>80岁	Age
S2	近期颅内或椎管内手术史	Therapy or Surgery
S3	血糖<2.7mmol/L	Laboratory Examinations

训练数据：一共22962条。

验证数据：一共7682条。

测试数据：一共7697条。（注：在CBLUE中测试数据已扩增至上万条）

l 数据集地址：https://github.com/TJBioMedNLP/chip2019task3/tree/main/data

二、金融领域

1. OBP：开放 Bandit 数据集

l 数据集名称：OBP：开放 Bandit 数据集

l 数据集提供者：时尚电子商务公司 ZOZO, Inc

l 数据集介绍：

Open Bandit Dataset 是在一个大型时尚电商平台中对两个多臂老虎机策略的 A/B 测试构建的，佐佐敦. 它目前总共由 2600 万行组成，每一行都代表具有一些特征值的用户印象、所选项目作为操作、真实倾向得分和点击指标作为结果。这尤其适用于评估离策略评估(OPE)，它尝试使用由不同算法生成的数据来估计假设算法的反事实性能。

以下是这些字段的详细说明（它们在 CSV 文件中以逗号分隔）：{behavior_policy}/{campaign}.csv（behavior_policy in (bts, random), campaign in (all, men, women)）

timestamp：展示的时间戳。

item_id：作为武器的物品索引（索引范围在“所有”活动中为 0-80，“男性”活动为 0-33，“女性”活动为 0-46）。

position：被推荐的item的位置（1、2、3分别对应ZOZOTOWN推荐界面的左、中、右位置）。

click: 目标变量，指示一个项目是否被点击 (1) 或没有 (0)。

propensity_score：在每个位置推荐项目的概率。

user feature 0-4：与用户相关的特征值。

user-item affinity 0-：由每个用户-项目对之间观察到的过去点击次数得出的用户-项目亲和度分数。

item_context.csv

item_id：作为武器的物品索引（索引范围在“所有”活动中为 0-80，“男性”活动为 0-33，“女性”活动为 0-46）。

item feature 0-3：项目相关特征值

非标注数据）和测试集（目标场景的标注数据）。

l 数据集地址：https://aistudio.baidu.com/aistudio/datasetdetail/104615

2. Retailrocket 推荐系统数据集

l 数据集名称：Retailrocket 推荐系统数据集

l 数据集提供者：Retailrocket

l 数据集介绍：

该数据集由三个文件组成：一个包含行为数据的文件 (events.csv)、一个包含项目属性的文件 (item properties.сsv) 和一个描述类别树的文件 (category tree.сsv)。数据是从现实世界的电子商务网站收集的。它是原始数据，即没有任何内容转换，但是，由于机密问题，所有值都经过哈希处理。发布的目的是激发具有隐式反馈的推荐系统领域的研究。
行为数据，即点击、添加到购物车、交易等事件，代表在 4.5 个月内收集的交互。访问者可以进行三种类型的事件，即“查看”、“添加到购物车”或“交易”。总共有 2 756 101 个事件，包括 2 664 312 次观看、69 332 次添加到购物车和 1 407 580 名独立访客产生的 22 457 次交易。对于大约 90% 的事件，可以在“item_properties.csv”文件中找到相应的属性。

例如：

“1439694000000,1,view,100”表示visitorId = 1，在1439694000000（Unix时间戳）点击id = 100的项目

“1439694000000,2,transaction,1000,234”表示visitorId = 2购买了id = 1000的物品，交易id = 234 at 1439694000000（Unix时间戳）

带有项目属性的文件 (item_properties.csv) 包括 20 275 902 行，即不同的属性，描述了 417 053 个唯一项目。由于文件大小限制，文件被分为 2 个文件。由于项目的属性可能随时间变化（例如，价格随时间变化），文件中的每一行都有对应的时间戳。换句话说，该文件由文件中每周的连接快照和行为数据组成。但是，如果项目的属性在观察期内保持不变，则文件中将只存在一个快照值。

l 数据集地址：https://aistudio.baidu.com/aistudio/datasetdetail/104756/0

3. 1997年至2020年亚马逊股价

l 数据集名称：亚马逊股票价格数据集

l 数据集提供者：亚马逊

l 数据集介绍：

亚马逊股票价格的时间序列预测。探索数据。

关于数据集：日期-格式：YY-MM-DD、公开赛-股票在开市价格、高-最高价格当天达到、低-在天达到最低价格的股票收盘时的市场小时结束-关闭调关闭-调整后所有适用的股利和股息分配的收盘价。

内容：里面不仅仅是行和列。通过描述您如何获取数据以及它代表什么时间段，使其他人容易上手。

l 数据集地址：https://aistudio.baidu.com/aistudio/datasetdetail/106629

4. CCKS 2018 微众银行智能客服问句匹配数据

l 数据集名称：CCKS 2018 微众银行智能客服问句匹配数据集

l 数据集提供者：微众银行

l 数据集介绍：

微众银行智能客服问句匹配数据集是由微众银行提供语料支持，哈尔滨工业大学（深圳）智能计算研究中心负责组织实施的真实场景语句意图匹配任务。

语句匹配是自然语言处理的最基本任务之一，是自动问答，聊天机器人，信息检索，机器翻译等各种自然语言处理任务基础。语句匹配问题的复杂性在于，匹配的要求不同，对匹配的定义也不尽相同，比如经典的语句复述判别问题，需要判断两句话是否仅仅是表述方式不同，但意义相同，而在Quora的的的问句匹配语料发布后，大量在该语料库上开展的语句匹配研究工作都沿袭语料发布者的定义，称为语义等价判别，语义等价判定，等价，而不直接判断两个语句是否表达相同的语义，所以其核心是语句的意图匹配。由于来源于真实问答语料库，该任务更加接近于智能客服等自然语言处理任务的实际需求。

与基于Quora的的的语义等价判别相同，本次评测任务的主要目标是针对中文的真实客服语料，进行问句意图匹配。集给定两个语句，要求判定两者意图是否相同或者相近。所有语料来自原始的银行领域智能客服日志，并经过了筛选和人工的意图匹配标注。

输入：一个语句对

输出：表明该语句对是否表达相同或者相似意图的二值标签（0或1）

l 数据集地址：https://www.biendata.xyz/competition/CCKS2018_3/datadescribe/

5. 上市及中小型企业工商信息数据

l 数据集名称：上市及中小型企业工商信息数据集

l 数据集提供者：SmoothNLP

l 数据集介绍：

数据集字段：名称,公司名称,公司介绍,工商,地址,工商注册id,成立时间,法人代表,注册资金,统一信用代码,网址

l 数据集地址：https://github.com/smoothnlp/FinancialDatasets/blob/master/data/SmoothNLP%E5%B7%A5%E5%95%86%E6%95%B0%E6%8D%AE%E9%9B%86%E6%A0%B7%E6%9C%AC10K.xlsx

三、航空领域

1. ATIS：航空公司旅行信息系统数据集

l 数据集名称：ATIS：航空公司旅行信息系统数据集

l 数据集提供者：暂无

l 数据集介绍：

该ATIS（航空旅行信息系统）是由录音和相应的关于人类要求对自动化航空旅行查询系统航班信息手册成绩单的数据集。数据包含 17 个独特的意图类别。原始分割分别包含训练、开发和测试集中的 4478、500 和 893 个意图标记的参考话语。

l 数据集地址：https://github.com/howl-anderson/ATIS_dataset/tree/master/data

四、汽车领域

1. 汽车领域多语种数据集

l 数据集名称：汽车领域多语种数据集

l 数据集提供者：讯飞智能汽车BU

l 数据集介绍：

国内车企为提升产品竞争力、更好走向海外市场，提出了海外市场智能交互的需求。但世界各国在“数据安全”上有着严格法律约束，要做好海外智能化交互，本土企业面临的最大挑战是数据缺少。本数据集可通过NLP相关人工智能算法来实现汽车领域多语种迁移学习。本次迁移学习任务中，讯飞智能汽车BU将提供较多的车内人机交互中文语料，以及少量的中英、中日、中阿平行语料作为训练集，可通过提供的数据构建模型，进行意图分类及关键信息抽取任务，最终使用英语、日语、阿拉伯语进行测试评判。

本数据集中三类车内交互功能语料，其中包括命令控制类、导航类、音乐类。较多的中文语料和较少的多语种平行语料均带有意图分类和关键信息，选手需充分利用所提供数据，在英、日、阿拉伯语料的意图分类和关键信息抽取任务上取得较好效果。

l 数据集地址：https://aistudio.baidu.com/aistudio/datasetdetail/154631/0

五、法律领域

1. CAIL2019相似案例匹配数据

l 数据集名称：CAIL2019相似案例匹配数据集

l 数据集提供者：中国裁判文书网

l 数据集介绍：

本任务所使用的数据集是来自“中国裁判文书网”公开的法律文书,其中每份数据由三篇法律文书组成。

对于每篇法律文书，我们提供该文书的事实描述部分。在下发的数据中，文件的每一行对应一组数据，且每行的格式都为一个json数据。对于每份数据，我们用$(A,B,C)$来代表该组数据，其中$(A,B,C)$均对应某一篇文书。对于下发的训练数据，我们保证，我们的文书数据$A$与$B$的相似度是大于$A$与$B$的相似度的，即$sim(A,B)>sim(A,C)$。

本数据集总共涉及一万组文书三元对，所有的文书三元组对都一定属于民间借贷案由。

l 数据集地址：https://github.com/china-ai-law-challenge/CAIL2019/tree/master/scm

2. 中文法律阅读理解数据集CJRC

l 数据集名称：中文法律阅读理解数据集CJRC

l 数据集提供者：SmoothNLP

l 数据集介绍：

近些年来，随着以裁判文书为代表的司法大数据不断公开，以及自然语言处理技术的不断突破，如何将人工智能技术应用在司法领域，来提高司法人员在案件处理环节的效率逐渐成为法律智能研究的热点。为了促进智慧司法相关技术的发展，在最高人民法院信息中心、中国中文信息学会和共青团中央青年发展部的指导下，中国司法大数据研究院、中国中文信息学会社会媒体处理专委会、中国中文信息学会计算语言学专委会、中国中文信息学会语言与知识计算专委会、中国中文信息学会评测工委会、中国电科集团科技部、中国电科团委联合清华大学、北京大学、哈尔滨工业大学、中国科学院软件研究所和中国科学院自动化所，在科大讯飞、国双科技和幂律智能的支持下，本数据集聚焦在法律要素抽取、法律阅读理解、相似案例匹配三个真实场景的任务，提供海量的已标注的法律文书数据，旨在为研究者提供学术交流平台，推动语言理解和人工智能领域技术在法律领域的应用，促进法律人工智能事业的发展。

裁判文书中包含了丰富的案件信息，比如时间、地点、人物关系等等，通过机器智能化地阅读理解裁判文书，可以更快速、便捷地辅助法官、律师以及普通大众获取所需信息。本任务是首次基于中文裁判文书的阅读理解比赛，属于篇章片段抽取型阅读理解（Span-Extraction Machine Reading）。为了增加问题的多样性。

l 数据集地址：https://github.com/china-ai-law

babyzbb636

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
大语言模型数据集（三）

在医疗领域，数据并不只是来自患者健康记录、医嘱条目和医生处方。事实上，目前已有数百万人通过家用工具包将他们的基因信息上传到商业数据库。医疗的相关的数据成为越来越重要的资源。NLP可以将人类语言翻译成机器可读的形式，允许机器从提供的数据中获得意义。医疗领域正使用NLP工具控制数据，这些数据的存储形式包括语音、文本、象形文字、照片等其他，通过它们得出有用结论。自然语言处理（NLP）技术这种颠覆性技术在医疗行业的使用，很好的辅助了医疗工作者，促进了医疗行业的发展。
复制链接

扫一扫