《Word Sense Disambiguation Improves Event Detection via Neural Representation Matching》阅读笔记

最新推荐文章于 2021-10-26 09:23:20 发布

qlzyssm

最新推荐文章于 2021-10-26 09:23:20 发布

阅读量317

点赞数

分类专栏： paper note 文章标签：自然语言处理 nlp 人工智能

本文链接：https://blog.csdn.net/qlzyssm/article/details/106056152

版权

paper note 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

文章目录

一、motivation
二、method
- - Pretrain + fine-tune
  - ALT

说明：《Similar but not the Same: Word Sense Disambiguation
Improves Event Detection via Neural Representation Matching》（EMNLP 2018）

一、motivation

词义消歧（Word Sense Disambiguation，WSD）：根据一个多义词在文本中出现的上下文环境来确定其具体词义。
事件检测（Event Detection，ED）：找到给定文本中的事件触发词，然后将其分类到预先设定的事件类型中。

从上述两个任务的定义可以看出这两个任务之间存在一定的相似性：

Similar Context Modeling：给定单词和所在上下文，WSD和ED模型都需要为其预测一个类别标签。对于WSD模型而言，标签代表了这个词的具体词义；对于ED模型而言，这个标签代表了事件的具体类型。
Close Semantic Consideration：从WSD中学习到单词的具体词义有利于确定事件的类型。

因此，作者提出可以利用WSD学习到的语义和上下文信息来提高ED的效果。

二、method

首先看一下迁移学习和多任务学习常用的两种方法。

Pretrain + fine-tune
该方法通常先在大规模数据上进行预训练，然后固定模型部分参数或者直接在特定任务数据集上进行微调。
ALT
ALT（ alternate the training process for the parameter-shared models of the related tasks），是指对于多个存在一定联系的任务，使用同一个模型在不同任务的数据集上交替进行训练。在这个过程中，模型可以将从其它任务中学习到的知识迁移到当前任务中，从而提高模型在当前任务上的效果。

作者认为这两种方法并不适用于当前实验。因为WSD分类的粒度较细（同一个词在词典通常具有较多的词义），而ED分类偏向粗粒度（同一个词对应的事件类型相对较少），因此在交替训练过程中，会彼此干扰，从而影响模型的最终表现。

基于这个考虑，作者提出了一个新的方法：采用相同的模型结构，不同的模型参数，在训练过程中通过loss函数来要求两个模型对于同一输入得到接近的中间表达，最后基于这个中间表达来进行各自任务的分类。这种迁移学习可以视为一种隐性的迁移学习，通过对齐中间表达，使模型既可以学习其它任务的知识，又可以避免由于ALT方法中参数必须保持一致引起的模型之间的互相干扰。最终的实验结果也证明作者这一方法的正确性和有效性。

在这里插入图片描述

qlzyssm

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《Word Sense Disambiguation Improves Event Detection via Neural Representation Matching》阅读笔记

文章目录一、简介说明：《Similar but not the Same: Word Sense DisambiguationImproves Event Detection via Neural Representation Matching》（EMNLP 2018）一、简介词义消歧（WSD）：对于给定词及其上下文，确认该词在当前语境下的具体词义。事件检测（Event Detection）：找到事件触发词，并对事件类型进行分类这两个任务具有一定的相似性，因此可以考虑使用WSD学习到的知识来
复制链接

扫一扫