著名数据集CoNLL-2003,其偏误正在影响20年内的算法

图片
本文作者:林檎

每到夜晚,Fien de Meulder 就会坐在她的 Linux 电脑前,从路透社的新闻文章中摘取的句子标记人名、地名和组织名称。

De Meulder 和她的同事 Erik Tjong Kim Sang 都在安特卫普大学从事语言技术工作。即便在 2003 年,每周 60 小时的工作时间在学术界也是常事。

她靠喝可乐保持清醒。为了完成一个开源数据集的开发,这些辛苦都是值得的。

这个开源数据集将用作一类被称为命名实体识别(NER)的任务。当时,这类任务刚刚开始蓬勃发展,它旨在帮助机器学习模型对文本中的实体进行识别和分类,是自然语言模型的基本组成部分之一。没有 NER 作为基础,在线搜索、信息提取和情感分析等应用将举步维艰。

一般而言,实体包括人员、地点和组织等,这些概念将是 AI 能够收集文本含义的关键。举个例子,在这些类数据集上受过训练的系统,可以分析包括名称 “Mary Barra”、“ General Motors” 和 “ Detroit” 三个实体的一段文本,可能推断出该人(Mary Barra)与公司(General Motors)有关联,并且在指定的地点(Detroit)居住或工作。

Tjong Kim Sang 和 de Meulder 所进行的这项工作,重点关注 4 个实体:PER(人员),LOC(位置),ORG(组织)和 MISC(其他,包括所

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值