【AdaSeq基础】30+NER数据汇总,涉及多行业、多模态命名实体识别数据集收集

简介

命名实体识别NER是NLP基础任务,一直以来受到学术界和业界的广泛关注,本文汇总了常见的中英文、多语言、多模态NER数据集介绍。

相关数据详情可以访问链接:

https://github.com/modelscope/AdaSeq/blob/master/docs/datasets.md

一、中文数据集

首先我们先介绍常用的中文NER数据集,语料来源包括新闻、电商、文娱、医疗、微博、论文文献等。

MSRA命名实体识别数据集

  • 简介:本数据集包括训练集(46364)、测试集(4365),实体类型包括地名(LOC)、人名(NAME)、组织名(ORG),数据源自新闻领域。

  • 语种:Chinese

  • "训练集/验证集/测试集"数量: 46364/-/4365

  • 实体类别数量:3

简历命名实体识别数据集

  • 简介:本数据集包括训练集(3821)、验证集(463)、测试集(477),实体类型包括国籍(CONT)、教育背景(EDU)、地名(LOC)、人名(NAME)、组织名(ORG)、专业(PRO)、民族(RACE)、职称(TITLE),文本比较规范,实体识别模型效果通常F1 90%以上。

  • 语种:Chinese

  • "训练集/验证集/测试集"数量:3821/463/477

  • 实体类别数量:9

weibo命名实体识别数据集

  • 简介:本数据集包括训练集(1350)、验证集(269)、测试集(270),实体类型包括地缘政治实体(GPE.NAM)、地名(LOC.NAM)、机构名(ORG.NAM)、人名(PER.NAM)及其对应的代指(以NOM为结尾),数据来自社交媒体平台,表达方式比较灵活。

  • 语种:Chinese

  • "训练集/验证集/测试集"数量: 1350/269/270

  • 实体类别数量:4

OntoNotes Release 4.0

  • 简介:OntoNotes Release 4.0 consists of 2.4 million words as follows: 300k words of Arabic newswire 250k words of Chinese newswire, 250k words of Chinese broadcast news, 150k words of Chinese broadcast conversation and 150k words of Chinese web text and 600k words of English newswire, 200k word of English broadcast news, 200k words of English broadcast conversation and 300k words of English web text.

  • 语种:English, Mandarin Chinese, Arabic, Chinese

  • "训练集/验证集/测试集"数量: 15724/4301/4346

OntoNotes Release 5.0

  • 语种:English

  • "训练集/验证集/测试集"数量: 59924/8528/8262

CLUENER2020 中文细粒度命名实体识别

  • 简介:本数据是在清华大学开源的文本分类数据集THUCTC基础上,选出部分数据进行细粒度命名实体标注,原数据来源于Sina News RSS.

  • 语种:Chinese

  • "训练集/验证集/测试集"数量:10748/1343/1345

  • 实体类别数量:10

人民日报NER数据集

  • 简介:本NER数据集由人民日报语料库1998版和2014版生成,包含了人名(PER)、地名(LOC)和机构名(ORG)3类常见的实体类型。

  • 语种:Chinese

  • 实体类别数量:3

中文医学命名实体识别数据集CMeEE

  • 简介:中文医学命名实体识别CMeEE,全称为Chinese Medical Entity Extraction dataset,来自于知名的中文医学NLP评测基准CBLUE。数据集包含504种常见的儿科疾病、7,085种身体部位、12,907种临床表现、4,354种医疗程序等九大类医学实体,包含训练集15,000条,验证集5,000条和测试集数据3,000条。 CMeEE包括两个版本:CMeEE和CMeEE-V2(在CMeEE基础上更新了部分标注错误)。 请研究人员到CBLUE项目主页下载:https://tianchi.aliyun.com/dataset/95414

  • 语种:Chinese

  • "训练集/验证集/测试集"数量: 15000/5000/3000

  • 实体类别数量: 9

Yidu-S4K:医渡云结构化4K数据集

  • 简介:Yidu-S4K 数据集源自CCKS 2019 评测任务一,即“面向中文电子病历的命名实体识别”的数据集。

  • 语种:Chinese

  • "训练集/验证集/测试集"数量: 1000/-/379

  • 实体类别数量:6

Youku NER Dataset / 文娱NER数据集

  • 简介:命名体识别(NER)是一项重要的自然语言处理任务,本数据集提供了文娱领域的NER开放数据集,包括了3大类、9小类实体类别。该数据集由阿里巴巴达摩院和新加坡科技设计大学联合提供。

  • 语种:Chinese

  • "训练集/验证集/测试集"数量: 8,001/1,000/1,001

  • 实体类别数量: 9

E-Commercial NER Dataset / 电商NER数据集

  • 简介:命名体识别(NER)是一项重要的自然语言处理任务,本数据集提供了电商领域的NER开放数据集,包括了4大类、9小类实体类别。该数据集由阿里巴巴达摩院和新加坡科技设计大学联合提供。

  • 语种:Chinese

  • "训练集/验证集/测试集"数量: 6,000/998/1,000

  • 实体类别数量: 9

Chinese-Literature-NER-RE-Dataset

  • 简介:A Discourse-Level Named Entity Recognition and Relation Extraction Dataset for Chinese Literature Text.

  • 语种:Chinese

  • 实体类别数量:7

二、英文+多语言数据集

接下来我们介绍常用的英文和其它语种NER数据集,包括多模态NER的数据:

conll2002命名实体识别数据集

  • 简介:CoNLL 2002和CoNLL 2003应该是NER开发者和研究人员常用的数据集了,分别是包含英语、俄语、西语、法语四种语言。每种语言的数据集涉及人名、地名、组织名和misc四类实体。

  • 语种:Spanish, Dutch

  • 实体类别数量:4

conll2003命名实体识别数据集

  • 简介:同上。

  • 语种:English、German

  • 实体类别数量:4

wnut16命名实体识别数据集

  • 简介:本数据集包括训练集(2394)、验证集(1000)、测试集(3850),实体类型包括company、facility、loc、movie、musicartist、other、person、product、sportsteam、tvshow。

  • 语种:English

  • "训练集/验证集/测试集"数量:2394/1000/3850

  • 实体类别数量: 10

wnut17命名实体识别数据集

  • 简介:本数据集包括训练集(3394)、验证集(1009)、测试集(1287),实体类型包括corporation、creative-work、group、location、person、product。

  • 语种:English

  • "训练集/验证集/测试集"数量:3394/1009/1287

  • 实体类别数量:6

conllpp命名实体识别数据集

  • 简介:本数据集包括训练集(14041)、验证集(3250)、测试集(3453),实体类型包括地点(LOC)、混合(MISC)、组织(ORG)、人名(PER)。conllpp数据集是conll数据集的修复版本。

  • 语种:English

  • "训练集/验证集/测试集"数量: 14041/3250/3453

  • 实体类别数量:4

CrossNER命名实体识别数据集

  • 简介:CrossNER数据集是面向多个不同领域(文学、政治、音乐、科学、人工智能)的英文命名实体识别数据集,主要作为低资源NER的练兵场。

  • 语种:English

BioCreative V CDR task corpus

  • 简介:The BioCreative V CDR task corpus is manually annotated for chemicals, diseases and chemical-induced disease (CID) relations. It contains the titles and abstracts of 1500 PubMed articles and is split into equally sized train, validation and test sets.

  • 语种:English

  • "训练集/验证集/测试集"数量:4560/4581/4797

  • 实体类别数量:2

NCBI disease corpus

  • 简介:The NCBI disease corpus is fully annotated at the mention and concept level to serve as a research resource for the biomedical natural language processing community.

  • 语种:English

  • "训练集/验证集/测试集"数量:5424/923/940

  • 实体类别数量:1

MIT-Movie命名实体识别数据集

  • 简介:The MIT Movie Corpus is a semantically tagged training and test corpus in BIO format in the movie domain.

  • 语种:English, Chinese

  • "训练集/验证集/测试集"数量:6816/1000/1953

  • 实体类别数量: 12

MIT-Restaurant命名实体识别数据集

  • 简介:MIT Restaurant Corpus 是餐厅领域中 BIO 格式的实体识别语料库。

  • 语种:English, Chinese

  • "训练集/验证集/测试集"数量:6900/760/1521

  • 实体类别数量: 9

ACE 2004 Multilingual Training Corpus

  • 简介:This corpus represents the complete set of English, Arabic, and Chinese training data for the 2004 Automatic Content Extraction (ACE) technology evaluation created by LDC with support from the ACE Program and additional assistance from the DARPA TIDES (Translingual Information Detection, Extraction and Summarization) Program. This data was previously distributed as an e-corpus (LDC2004E17) to participants in the 2004 ACE evaluation.

  • 语种:English,Arabic, and Chinese

ACE 2005 Multilingual Training Corpus

  • 简介:ACE 2005 Multilingual Training Corpus was developed by the Linguistic Data Consortium (LDC) and contains approximately 1,800 files of mixed genre text in English, Arabic, and Chinese annotated for entities, relations, and events. This represents the complete set of training data in those languages for the 2005 Automatic Content Extraction (ACE) technology evaluation. The genres include newswire, broadcast news, broadcast conversation, weblog, discussion forums, and conversational telephone speech. The data was annotated by LDC with support from the ACE Program and additional assistance from LDC.

  • 语种:English,Arabic, and Chinese

KBP2017命名实体识别数据集

  • 简介:The Entity Discovery and Linking (EDL) track aims to extract entity mentions from a source collection of textual documents in multiple languages, and link them to a reference knowledge base; an EDL system is also required to cluster mentions for those entities that don't have corresponding KB entries.

  • 语种:English

  • 实体类别数量: 5

JNLPBA生物命名体识别数据集

  • 简介:The BioNLP / JNLPBA Shared Task 2004 involves the identification and classification of technical terms referring to concepts of interest to biologists in the domain of molecular biology. The task was organized by GENIA Project based on the annotations of the GENIA Term corpus (version 3.02).

  • 语种:English

  • "训练集/验证集/测试集"数量: 2000/-/404

  • 实体类别数量: 5

Few-NERD

  • 简介:Few-NERD是一个大规模,多粒度的人工标注命名实体识别(Named Entity Recognition, NER)数据集,包含了8个大类,66个小类,18万余个句子,49余万个实体。本数据集包括3个任务,分别为标准监督NER(Few-NERD (SUP)),跨大类Few-shot NER(Few-NERD (INTRA))和不跨大类的Few-shot NER (Few-NERD (INTER))。Few-NERD由清华大学和阿里巴巴的研究者构建而成。

  • 语种:English

  • "训练集/验证集/测试集"数量:131767/18824/37548

  • 实体类别数量: 8 / 66

Financial NER Dataset

  • 简介:The dataset is generated using CoNll2003 data and financial documents obtained from U.S. Security and Exchange Commission (SEC) filings.

  • 语种:English

  • "训练集/验证集/测试集"数量: (Document level) 5/-/3

  • 实体类别数量: 4

Broad Twitter Corpus (BTC)

  • 简介:The Broad Twitter Corpus is a named entity-annotated dataset of tweets, collected in order to capture temporal, spatial and social diversity. Its annotations have high agreement and quality, and it has about 12000 entity annotations, of types Person, Location and Organization.

  • 语种:English

  • "训练集/验证集/测试集"数量:6338/1001/2000

  • 实体类别数量:3

Temporal Twitter Corpus (TTC)

  • 简介:It includes 12,000 tweets annotated for the named entity recognition task. The tweets are uniformly distributed over the years 2014-2019, with 2,000 tweets from each year. The goal is to have a temporally diverse corpus to account for data drift over time when building NER models.

  • 语种:English

  • "训练集/验证集/测试集"数量: 10000/500/1500

  • 实体类别数量: 3

Tweebank-NER

  • 简介:Social media data such as Twitter messages (“tweets”) pose a particular challenge to NLP systems because of their short, noisy, and colloquial nature. The Tweebank-NER is an English NER corpus based on Tweebank V2 (TB2).

  • 语种:English

  • "训练集/验证集/测试集"数量: 1,639/710/1,201

  • 实体类别数量:4

TweetNER7

  • 简介:TweetNER7 is a NER dataset on Twitter with 7 entity labels annotated over 11,382 tweets from September 2019 to August 2021.

  • 语种:English

  • 实体类别数量: 7

三、多模态NER数据集

接下来我们介绍常用多模态NER的数据:

Multimodal Twitter-15 NER Dataset

  • 简介:来自社交媒体领域的多模态NER数据集,内容来自推文及其图片。

  • 语种:English

  • "训练集/验证集/测试集"数量: 4000/1000/3257

  • 实体类别数量:4

Multimodal Twitter-17 NER Dataset

  • 简介:与上面类似,来自社交媒体领域的多模态NER数据集,内容来自推文及其图片。多模态NER的论文通常会在这两个数据集上进行实验。

  • 语种:English

  • "训练集/验证集/测试集"数量: 4000/1000/3257

  • 实体类别数量:4

Multimodal SNAP NER Dataset

  • 简介:SNAP的多模态NER数据,实体类型分别是人名、地名、组织名和misc。

  • 语种:English

  • 实体类别数量:4

WikiDiverse Dataset

  • 简介:是一个多模态实体识别和实体链接数据集。这一数据集是基于多个角度的考虑:首先,综合参考现有的实体链接数据集、分析图文匹配程度、实体消歧难度等信息,采用WikiNews的“图片-标题”对作为原始数据,将Wikipedia作为对应的知识图谱。其次,我们采集了体育、政治、娱乐、灾难、科技、犯罪、经济、教育、健康、天气主题的图文对,并进行了质量低下、色情、暴恐信息的清洗,对图片类型进行了归一化(因为部分图片为gif等格式),从而保证数据的高覆盖性和质量。最后,引入了众包标注平台进行数据标注,在此过程中设计了详细的标注规范,特别地,我们关注人物、组织、地点、国家、事件、作品(包含图书、画作等)、其他等多个实体类型。

  • 语种:English

  • "训练集/验证集/测试集"数量: 6312/755/757

四、 多语言NER数据集

接下来我们介绍常用的多语种NER的数据:

MultiCoNER Dataset

  • 简介:MultiCoNER 是用于命名实体识别的大型多语言数据集(11 种语言)。它旨在代表 NER 中的一些当代挑战,包括低上下文场景(短文本和无大小写文本)、句法复杂的实体(如电影片名)和长尾实体分布。

  • 语种: Bangla、 Chinese、Dutch、English、Farsi、German、Hindi、Korean、Russian、Spanish、Turkish.

  • 实体类别数量:6

命名实体识别数据集汇总列表

Language

Dataset

Size

#Types

Description

Paper

Download

Chinese

msra

46364/-/4365

3

Levow

damo/msra_ner

Chinese

resume

3821/463/477

9

Zhang & Yang

damo/resume_ner

Chinese

weibo

1350/269/270

4

Peng & Dredze

damo/weibo_ner

Chinese

ontonotes-v4-zh

15724/4301/4346

-

ldc/ontonotes-v4

Chinese

cluener2020

10748/1343/1345

10

Xu et al., 2020

github/cluener2020

Chinese

people_dairy1998

3

github/ChineseNLPCorpus

Chinese

people_dairy2014

3

baidu-pan passwrod:1fa3

Chinese

cmeee

15000/5000/3000

CMeEE dataset in CBLUE benchmark

Zhang et al., 2022

github/cblue

Chinese

yidu-s4k

-

openkg/yidu-s4k

Chinese

ecommerce

Jie et al., 2019

github/ner_incomplete_annotation/ecommerce

Chinese

dlner

Xu, et al.,2017

github/dlner

Dutch

conll2002-nl

15796/2895/5196

4

Tjong Kim Sang, 2002

English

wnut2016

2394/1000/3850

Noisy User-generated Text

Strauss et al., 2016

damo/wnut16

English

wnut2017

3394/1009/1287

Derczynski et al., 2017

damo/wnut17

English

conll2003-en

14041/3250/3453

4

Tjong Kim Sang & De Meulder, 2003

English

conllpp

14041/3250/3453

4

corrected version of the conll03-en NER dataset

Wang et al., 2019

damo/conllpp_ner

English

ontonotes-v5-en

59924/8528/8262(TBD)

Pradhan et al., 2013

ldc/ontonotes-v5

English

ai

100/350/431

Liu et al., 2020

damo/cross_ner

English

literature

100/400/416

Liu et al., 2020

damo/cross_ner

English

music

100/541/465

Liu et al., 2020

damo/cross_ner

English

politics

200/541/651

Liu et al., 2020

damo/cross_ner

English

science

200/450/543

Liu et al., 2020

damo/cross_ner

English

bc5cdr

4560/4581/4797

Li et al., 2016

English

ncbi

5424/923/940

Doğan et al., 2014

English

mit-movie

6816/1000/1953(TBD)

Liu et al., 2013

mit/movie

English

mit-restaurant

6900/760/1521

Liu et al., 2013

mit/restaurant

English

ace2004-en

7

nested ner

Doddington et al., 2005

ldc/ace04

English

ace2005-en

7

nested ner

-

ldc/ace05

English

kbp2017

nested ner

-

-

English

genia

nested ner

Ohta et al., 2002

English

few-nerd

131767/18824/37548

8 / 66

a few-shot ner dataset

Ding et al., 2021

English

wikigold

Balasuriya et al.,2009

English

bionlp2014

Collier & Kim, 2004

English

fin

Alvarado et al., 2015

English

btc

6338/1001/2000

3

Derczynski et al., 2016

English

ttc

Rijhwani & Preot¸iuc-Pietro

github/ttc

English

tweebank

Jiang et al.,2022

github/tweebank

English

tweetner7

Ushio, et al., 2022

huggingface/tweetner7

German

conll2003-de

12152/2866/3005

4

Tjong Kim Sang & De Meulder, 2003

Spanish

conll2002-es

8302/1919/1517

4

Tjong Kim Sang, 2002

English

twitter2015

multi-modal

Zhang et al., 2018

English

snap

multi-modal

Lu et al., 2018

github/UMT

English

twitter2017

multi-modal

Yu et al., 2020

github/UMT

English

wiki-diverse

constructed from wiki-diverse (a multi-modal entity typing dataset)

Wang et al., 2022

github/wikidiverse

11 langs

multiconer2022

-

6

dataset of SemEval 2022 Task 11

(English, Spanish, Dutch, Russian, Turkish, Korean, Farsi, German, Chinese, Hindi, and Bangla)

Malmasi et al., 2022

aws/multiconer

282 langs

wikiann

-

silver-standard data

Pan et al, 2017

github/wikiann

9 langs

wikiner

-

silver-standard data

Nothman et al, 2013

9 langs

wikineural

-

silver-standard data

Tedeschi et al, 2021

10 langs

multinerd

-

silver-standard data

Tedeschi & Navigli. 2022

致谢

本列表由达摩院NLP团队和天池数据科学团队长期维护,相关数据可以通过序列理解统一框架AdaSeq进行模型训练。

https://github.com/modelscope/AdaSeq/blob/master/README_zh.md

### 多模态命名实体识别 多模态命名实体识别(Multi-modal Named Entity Recognition, MM-NER)旨在利用来自不同模式的数据来提高命名实体识别的效果。传统方法主要依赖于文本数据,而MM-NER则结合图像、音频等种形式的信息。通过融合这些异构信息源,可以更准确地捕捉到实体特征[^1]。 对于实现这一目标的技术手段而言,在处理过程中通常会涉及到跨模态表示学习算法的应用。例如,可以通过构建联合嵌入空间使得不同类型输入能够在同一向量场内表达相似语义概念;也可以采用注意力机制让模型自动聚焦于最具判别力的部分。 ```python import torch.nn as nn class MultiModalNER(nn.Module): def __init__(self): super(MultiModalNER, self).__init__() # Define layers for processing text and other modalities def forward(self, inputs_text, inputs_image=None): pass # Implement the logic to integrate multiple modality features here ``` ### 多模态关系抽取 多模态关系抽取(Multi-modal Relation Extraction, MM-RE)是指从种类型的媒体资料中提取出事物之间的关联信息。这不仅限于文字描述中的逻辑联系,还包括视觉场景里物体间的位置关系等非结构化线索。借助深度神经网络架构如图卷积网络或胶囊网络能够有效建模复杂交互模式并从中挖掘潜在规律。 具体来说,为了更好地理解图片内容及其所蕴含的关系,研究者们提出了基于区域提议的方法论框架——先定位感兴趣的目标对象再进一步分析它们之间可能存在的作用方式。此外还有些工作探索了如何将自然语言指令映射成对应的操作序列从而指导计算机完成特定任务。 ```python from transformers import BertModel class MultiModalRelationExtractor(BertModel): def __init__(self, config): super().__init__(config) # Add additional components specific to multi-modal relation extraction def extract_relations(self, input_ids, attention_mask, visual_features): outputs = self(input_ids=input_ids, attention_mask=attention_mask) last_hidden_state = outputs.last_hidden_state # Process `visual_features` alongside textual representations... return extracted_relationships ``` ### 方面级情感分析 方面级情感分析(Aspect-Level Sentiment Analysis, ALSA)专注于针对产品评论或其他意见表达材料里的各个维度分别给出正面与否的态度倾向评估。不同于全局层面的情感分类,ALSA关注的是细粒度上的偏好差异,比如顾客对餐厅食物质量满意但对其服务态度不满等情况。近年来随着预训练语言模型的发展,越来越的研究尝试引入外部知识库辅助判断,或是设计专门面向领域特性的微调策略以提升性能表现。 实践中常用的做法是在BERT之类的基础之上增加额外层用于编码aspect terms,并且允许其参数在整个优化流程期间得到更新调整。这样做的好处是可以充分利用大规模无标注语料所带来的优势同时又不失灵活性去适应新出现的任务需求变化趋势。 ```python class AspectLevelSentimentAnalyzer(nn.Module): def __init__(self, bert_model_name='bert-base-cased'): super(AspectLevelSentimentAnalyzer, self).__init__() self.bert = AutoModel.from_pretrained(bert_model_name) def analyze_sentiments(self, sentences_with_aspects): encoded_inputs = tokenizer(sentences_with_aspects, padding=True, truncation=True, return_tensors="pt") output = self.bert(**encoded_inputs)[0] # Further process BERT embeddings with respect to aspects... return sentiment_scores_per_aspect ``` ### 多模态反讽识别 多模态反讽识别(Multi-modal Irony Detection, MMDI)是一项具有挑战性的工作,因为它涉及到了解人类交流背后深层次的文化背景和社会心理因素。当人们说某句话时表面上看似积极实际上却表达了相反含义的现象被称为讽刺言辞。MMDI试图通过对语音语气、面部表情乃至肢体动作等一系列信号进行综合考量进而区分正常陈述与隐含嘲弄意味的话语片段。由于缺乏足够的公开可用资源作为支撑,目前该方向仍处于起步阶段但是已经取得了一些初步成果。 一种可行方案是建立一个通道感知系统,其中每个子模块负责接收某一类感官刺激并将之转化为可供计算的形式;之后再由顶层控制器协调各部分输出最终做出决策。值得注意的是,考虑到个体间的巨大变异性以及文化习俗的影响程度不一,任何解决方案都应当具备良好的泛化能力和自适应特性以便应对各种实际情况的发生可能性。 ```python def detect_ironic_statements(audio_signal, video_frames): audio_feature_extractor = AudioFeatureExtractor() vision_based_analyzer = VisionBasedIronyDetector() acoustic_cues = audio_feature_extractor.extract_features(audio_signal) facial_expressions_and_gestures = [vision_based_analyzer.analyze_frame(frame) for frame in video_frames] combined_representation = fuse_multimodal_data(acoustic_cues, facial_expressions_and_gestures) prediction = classify(combined_representation) return "ironic" if prediction >= threshold else "literal" ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值