SemEval-2010任务8：成对名词之间的语义关系的多分类

最新推荐文章于 2024-04-25 10:48:05 发布

qianjinwang

最新推荐文章于 2024-04-25 10:48:05 发布

阅读量933

点赞数

文章标签：自然语言处理

本文链接：https://blog.csdn.net/qianjin_w/article/details/105988273

版权

摘要SemEval-2任务8专注于名词对之间语义关系的多分类。该任务旨在比较语义关系分类的不同方法，并为将来的研究提供标准的测试平台。本文定义了任务，描述了训练和测试数据及其创建过程，列出了参与的系统（10个团队，28个运行），并讨论了其结果。

1简介

SemEval-2010任务8着重于名词对之间的语义关系。例如，茶和人参在“杯子中含有来自人参干的茶”中具有“实体-原点”关系。语义关系的自动识别具有许多应用，例如信息提取，文档摘要，机器翻译或叙词表和语义网络的构建。它还可以促进辅助任务，例如单词义消除歧义，语言建模，释义和识别文本含义。我们的目标是创建一个自动分类语义关系的测试平台。在制定任务时，我们遇到了几个挑战：选择合适的关系集，指定注释过程以及确定任务本身的细节。它们将在第2节中进行简要讨论。另请参见Hendrickx等。（2009年），其中包括相关工作的调查。任务8的直接前身是名词之间的语义关系分类，即SemEval-1中的任务4（Girju等，2009），它为七个关系中的每一个都有一个单独的二进制标签数据集。我们将SemEval2010任务8定义为多向分类任务，其中每个示例的标签都必须从十个关系的完整集合中选择，并且事先不提供从名词到参数槽的映射。我们还提供了更多数据：10,717个带注释的示例，而SemEval-1 Task 4中为1,529个。

2数据集创建

2.1语义关系清单

我们首先决定了语义关系清单。理想情况下，它应该是详尽无遗的（启用任何一对名词之间的关系描述）并且是互斥的（上下文中的每对名词仅应映射到一个关系）。但是，文献表明，任何关系清单都不能同时满足这两种需求，并且在实践中，必须接受它们之间的某种权衡。作为务实的妥协，我们选择了九种关系，涵盖范围广泛，足以引起一般和实际利益。我们旨在尽可能避免语义重叠。但是，我们包括两组高度相关的关系（ENTITY-ORIGIN / ENTITY-DESTINATION和CONTENT-CONTAINER / COMPONENTWHOLE / MEMBER-COLLECTION），以评估模型进行细粒度区分的能力。我们的库存如下。前四个也用在SemEval-1任务4中，但是注释准则已经过修订，因此不应假定完全连续。

因果（CE）。事件或物体会产生效果。示例：那些癌症是由辐射暴露引起的
文书机构（IA）。代理人使用工具。示例：电话接线员
产品生产商（PP）。生产者导致产品存在。示例：一家工厂生产西服
内容容器（CC）。对象物理上存储在空间的划定区域中。示例：称重满满一瓶蜂蜜
实体来源（EO）。实体来自原点（例如，位置或材料）或从原点衍生。示例：来自外国的信件
实体目标（ED）。实体正在走向目的地。例子：男孩上床睡觉
整体分量（CW）。对象是更大整体的组成部分。示例：我的公寓有一个大厨房
成员集合（MC）。成员构成集合的非功能部分。例子：森林里有很多树
消息主题（MT）。消息（书面或语音）与主题相关。示例：讲座是关于语义的

2.3注释过程
注释进行了三轮。首先，我们通过基于模式的Web搜索为每个关系手动收集了大约1200个句子。为了确保各种例句，我们为每种关系使用了大量的模式，通常在一百到几百之间。重要的是，在第一轮中，关系本身未加注释：目标只是收集积极和几乎未遂的候选实例。一个粗略的目标是让90％的候选人实例化目标关系（“积极实例”）。在第二轮中，为每个关系收集的候选者转到两个独立的注释器进行标记。由于我们有一个多向分类任务，因此注释者使用了9个关系以及OTHER的完整清单。由于重叠的案例在很大程度上是系统性的，因此这种注释变得更加容易，这是由诸如隐喻用法之类的一般现象和存在多个关系的情况引起的。例如，CONTENTCONTAINER和ENTITY-DESTINATION之间存在系统的潜在重叠，具体取决于句子中描述的情况是静态还是动态，例如，, “When I came, the apples were already put in the basket.” is CC(e1, e2), 而 “Then, the apples were quickly put in the basket.” is ED(e1, e2).

3任务参与
系统必须解决以下任务：给定一个句子和两个标记的名词，预测这些名词之间的关系以及关系的方向。我们发布了一个详细的评分器，该评分器输出（1）混淆矩阵，（2）准确性和覆盖率，（3）每个关系的精度（P），召回率（R）和F1-分数，（4）微观平均P，R，F1，（5）宏观平均P，R，F1。对于（4）和（5），计算将忽略OTHER关系。我们的官方评分指标是针对（9 + 1）方式分类的宏观平均F1-分数。要求团队为训练数据的不同部分提交测试数据预测。具体来说，我们要求获得前1000、2000、4000和8000个训练实例（称为TD1到TD4）的结果。 TD4是完整的培训套件。

qianjinwang

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
SemEval-2010任务8：成对名词之间的语义关系的多分类

摘要SemEval-2任务8专注于名词对之间语义关系的多分类。该任务旨在比较语义关系分类的不同方法，并为将来的研究提供标准的测试平台。本文定义了任务，描述了训练和测试数据及其创建过程，列出了参与的系统（10个团队，28个运行），并讨论了其结果。1简介SemEval-2010任务8着重于名词对之间的语义关系。例如，茶和人参在“杯子中含有来自人参干的茶”中具有“实体-原点”关系。语义关系的...
复制链接

扫一扫