著名数据集CoNLL-2003，其偏误正在影响20年内的算法

数据实战派

于 2021-03-12 16:55:29 发布

阅读量805

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shujushizhanpai/article/details/114700462

版权

本文作者：林檎

每到夜晚，Fien de Meulder 就会坐在她的 Linux 电脑前，从路透社的新闻文章中摘取的句子标记人名、地名和组织名称。

De Meulder 和她的同事 Erik Tjong Kim Sang 都在安特卫普大学从事语言技术工作。即便在 2003 年，每周 60 小时的工作时间在学术界也是常事。

她靠喝可乐保持清醒。为了完成一个开源数据集的开发，这些辛苦都是值得的。

这个开源数据集将用作一类被称为命名实体识别（NER）的任务。当时，这类任务刚刚开始蓬勃发展，它旨在帮助机器学习模型对文本中的实体进行识别和分类，是自然语言模型的基本组成部分之一。没有 NER 作为基础，在线搜索、信息提取和情感分析等应用将举步维艰。

一般而言，实体包括人员、地点和组织等，这些概念将是 AI 能够收集文本含义的关键。举个例子，在这些类数据集上受过训练的系统，可以分析包括名称 “Mary Barra”、“ General Motors” 和 “ Detroit” 三个实体的一段文本，可能推断出该人（Mary Barra）与公司（General Motors）有关联，并且在指定的地点（Detroit）居住或工作。

Tjong Kim Sang 和 de Meulder 所进行的这项工作，重点关注 4 个实体：PER（人员），LOC（位置），ORG（组织）和 MISC（其他，包括所

最低0.47元/天解锁文章

数据实战派

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
著名数据集CoNLL-2003，其偏误正在影响20年内的算法

本文作者：林檎每到夜晚，Fien de Meulder 就会坐在她的 Linux 电脑前，从路透社的新闻文章中摘取的句子标记人名、地名和组织名称。De Meulder 和她的同事 Erik Tjong Kim Sang 都在安特卫普大学从事语言技术工作。即便在 2003 年，每周 60 小时的工作时间在学术界也是常事。她靠喝可乐保持清醒。为了完成一个开源数据集的开发，这些辛苦都是值得的。这个开源数据集将用作一类被称为命名实体识别（NER）的任务。当时，这类任务刚刚开始蓬勃发展，它旨在帮助机器学习模.
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。