【NLP公开数据集】 CoNLL-2003数据集

最新推荐文章于 2025-02-27 19:54:24 发布

Elvira521yan

最新推荐文章于 2025-02-27 19:54:24 发布

阅读量1.3w

点赞数 7

分类专栏： NLP 文章标签：自然语言处理

本文链接：https://blog.csdn.net/Elvira521yan/article/details/118028020

版权

CoNLL-2003命名实体数据集[下载]是用于CoNLL-2003共享任务，由八个文件组成，涵盖两种语言:英语和德语。

每种语言都包含：训练集、开发集、测试集、无标签数据；

1.训练集：用于模型学习训练

2.开发集：用于模型学习过程中调参

3.测试集：用于结果的测试

注意：其中无标签数据较大【未标注数据包含1700万个token(英语)和1400万个token(德语)】，其他数据集都比较小

英文数据取自Reuters Corpus，该数据集由路透社从1996年8月到1997年8月的新闻故事组成；

具体的数据详细信息如下：

（1）个数据集中的文章、句子、词语数量

	文章数	句子数	词语数
训练集	946	14987	203621

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Elvira521yan

关注关注

7
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【NLP任务】CoNLL-2003独立于语言的命名实体识别(II)

Elvira521yan的博客

06-20

1558

pass

命名实体识别学习-数据集介绍-conll03

最新发布

m0_74828705的博客

02-27

615

增量学习, 命名实体识别, BERT, CoNLL-2003, F1-score。

Conll-2003 数据集：第一列是单词，第二列是词性，第三列是语法，第四列是实体标签。在NER任务中，只关心一和四列。

04-21

Conll-2003 数据集：第一列是单词，第二列是词性，第三列是语法，第四列是实体标签。在NER任务中，只关心一和四列。

conll2003数据集下载与预处理

Harry的博客

06-25

6580

包括 1,393 篇英文新闻文章和 909 篇德文新闻文章。我们将查看英文数据。

BERT-NER：使用Google的BERT进行命名实体识别（CoNLL-2003作为数据集）

02-06

为了获得更好的性能，您可以尝试NLPGNN，有关更多详细信息，请参见。 BERT-NER版本2 使用Google的BERT进行命名实体识别（CoNLL-2003作为数据集）。原始版本（有关更多详细信息，请参见old_version）包含一些硬代码，并且缺少相应的注释，因此不方便理解。因此，在此更新版本中，有一些新的想法和技巧（关于数据预处理和图层设计）可以帮助您快速实现微调模型（您只需尝试修改crf_layer或softmax_layer）。资料夹说明： BERT-NER |____ bert # need git from [h

CoNLL-2003 eng.train

03-11

数据集CoNLL-2003，这一数据集是用于测试命名实体识别的早期训练数据，文本来源是报纸新闻。英文数据eng.train

著名数据集CoNLL-2003，其偏误正在影响20年内的算法

shujushizhanpai的博客

03-12

898

本文作者：林檎每到夜晚，Fien de Meulder 就会坐在她的 Linux 电脑前，从路透社的新闻文章中摘取的句子标记人名、地名和组织名称。 De Meulder 和她的同事 Erik Tjong Kim Sang 都在安特卫普大学从事语言技术工作。即便在 2003 年，每周 60 小时的工作时间在学术界也是常事。她靠喝可乐保持清醒。为了完成一个开源数据集的开发，这些辛苦都是值得的。这个开源数据集将用作一类被称为命名实体识别（NER）的任务。当时，这类任务刚刚开始蓬勃发展，它旨在帮助机器学习模.

Coref resolution 数据集Conll-2012下载和处理

yangjingyi0730的博客

01-27

2032

刚开始接触coref resolution任务，第一步就是下载数据集。这个数据集下载和处理还是有点麻烦的，稍微绕了一些弯路，在这里记录一下。 1. 下载数据集 CONLL-2012的数据集在这里下载：https://cemantix.org/conll/2012/data.html 下载 conll-2012-train.v4.tar.gz conll-2012-development.v4.tar.gz conll-2012-test-official.v9.tar.gz conll-201

使用Google的BERT进行命名实体识别（CoNLL-2003作为数据集）。-Python开发

05-25

使用google BERT进行CoNLL-2003 NER！为了获得更好的性能，您可以尝试使用fennlp，有关更多详细信息，请参见fennlp。 BERT-NER版本2使用Google的BERT进行命名实体识别（CoNLL-2003作为数据集）。原始版本（请参阅old_version以获得更多详细信息）包含一些硬代码，并且缺少相应的注释，因此不方便理解。因此，在此更新版本中，有一些新的思想和技巧（关于数据预处理和图层设计）可以帮助您快速实现微调模型（您只需要

conll2003.rar_2003.con_CONLL2003下载_conll_education2mc_命名实体

07-15

conll2003命名实体识别数据，可用于训练与开发

Python-使用谷歌BERT做CoNLL2003NER

08-11

Use google BERT to do CoNLL-2003 NER !

coNLL2004数据集

07-12

机器学习或采用统计模型如HMM,MEMM,CRF等训练时需要的数据集，具体使用方法请看里面的README,一定要看仔细了，里面有很多的小压缩包，完整的train.txt或text.txt要在linux下用命令生成

conll04数据集英文关系抽取深度学习

05-16

conll04数据集英文关系抽取深度学习

[代码实践]利用LSTM构建基于conll2003数据集的命名实体实体识别NER模型

Harry的博客

07-02

1949

执行结果. 一共应用了12个Epoch，训练集上的准确率是99.7%，测试集上准确率是98%。1. conll2003数据集介绍以及数据集预处理请看下面博客。3. 创建基于lstm网络的NER模型。7. main方法来训练模型与测试模型。6. 保存文件以及加载文件的方法。2. 取预处理过的数据集。

命名实体识别学习-用lstm+crf处理conll03数据集

StarLib的博客

07-19

3534

title: 命名实体识别学习-用lstm+crf处理conll03数据集 date: 2020-07-18 16:32:31 tags: 命名实体识别学习-用lstm+crf处理conll03数据集文章目录命名实体识别学习-用lstm+crf处理conll03数据集一整合时要解决的问题二 mask和padlstm读入涉及转移分矩阵的计算三将for循环改为矩阵运算gold_score的计算forward_score的计算结果：总结一直想写的一篇文章，虽然好像也不是很忙，但是一直拖着没做。就是讲下.

使用pytorch实现基于Bert的CoNLL-2003命名实体识别

qq_44827933的博客

11-20

1663

词词性语法块实体标签SOCCERNNB-NPOOOJAPANNNPB-NPB-LOCGETVBB-VPO在Ner任务中，我们只需要关注词和实体标签，即第一列和最后一列，不需要用到词性和语法块。

elmo(BiLSTM-CRF+elmo)（Conll-2003 命名实体识别NER）

weixin_42318554的博客

04-19

3441

文章目录elmo(Bi-lm)（命名实体识别BiLSTM-CRF+elmo）一、文件目录二、语料集三、数据处理(data_utils.py)(vocabulary.py)四、模型（mem_transformer.py）五、训练(train.py)六、计算loss值(proj_adaptive_softmax.py)实验结果 elmo(Bi-lm)（命名实体识别BiLSTM-CRF+elmo） Bidirectional laguage models: elmo: elmo下游任务：一、文件