本文作者:林檎
每到夜晚,Fien de Meulder 就会坐在她的 Linux 电脑前,从路透社的新闻文章中摘取的句子标记人名、地名和组织名称。
De Meulder 和她的同事 Erik Tjong Kim Sang 都在安特卫普大学从事语言技术工作。即便在 2003 年,每周 60 小时的工作时间在学术界也是常事。
她靠喝可乐保持清醒。为了完成一个开源数据集的开发,这些辛苦都是值得的。
这个开源数据集将用作一类被称为命名实体识别(NER)的任务。当时,这类任务刚刚开始蓬勃发展,它旨在帮助机器学习模型对文本中的实体进行识别和分类,是自然语言模型的基本组成部分之一。没有 NER 作为基础,在线搜索、信息提取和情感分析等应用将举步维艰。
一般而言,实体包括人员、地点和组织等,这些概念将是 AI 能够收集文本含义的关键。举个例子,在这些类数据集上受过训练的系统,可以分析包括名称 “Mary Barra”、“ General Motors” 和 “ Detroit” 三个实体的一段文本,可能推断出该人(Mary Barra)与公司(General Motors)有关联,并且在指定的地点(Detroit)居住或工作。
Tjong Kim Sang 和 de Meulder 所进行的这项工作,重点关注 4 个实体:PER(人员),LOC(位置),ORG(组织)和 MISC(其他,包括所