《Word Sense Disambiguation Improves Event Detection via Neural Representation Matching》阅读笔记


说明:《Similar but not the Same: Word Sense Disambiguation
Improves Event Detection via Neural Representation Matching》(EMNLP 2018)

一、motivation

  • 词义消歧(Word Sense Disambiguation,WSD):根据一个多义词在文本中出现的上下文环境来确定其具体词义。
  • 事件检测(Event Detection,ED):找到给定文本中的事件触发词,然后将其分类到预先设定的事件类型中。

从上述两个任务的定义可以看出这两个任务之间存在一定的相似性:

  • Similar Context Modeling:给定单词和所在上下文,WSD和ED模型都需要为其预测一个类别标签。对于WSD模型而言,标签代表了这个词的具体词义;对于ED模型而言,这个标签代表了事件的具体类型。
  • Close Semantic Consideration:从WSD中学习到单词的具体词义有利于确定事件的类型。

因此,作者提出可以利用WSD学习到的语义和上下文信息来提高ED的效果。

二、method

首先看一下迁移学习和多任务学习常用的两种方法。

  • Pretrain + fine-tune

    该方法通常先在大规模数据上进行预训练,然后固定模型部分参数或者直接在特定任务数据集上进行微调。
  • ALT

    ALT( alternate the training process for the parameter-shared models of the related tasks),是指对于多个存在一定联系的任务,使用同一个模型在不同任务的数据集上交替进行训练。在这个过程中,模型可以将从其它任务中学习到的知识迁移到当前任务中,从而提高模型在当前任务上的效果。

作者认为这两种方法并不适用于当前实验。因为WSD分类的粒度较细(同一个词在词典通常具有较多的词义),而ED分类偏向粗粒度(同一个词对应的事件类型相对较少),因此在交替训练过程中,会彼此干扰,从而影响模型的最终表现。

基于这个考虑,作者提出了一个新的方法:采用相同的模型结构,不同的模型参数,在训练过程中通过loss函数来要求两个模型对于同一输入得到接近的中间表达,最后基于这个中间表达来进行各自任务的分类。这种迁移学习可以视为一种隐性的迁移学习,通过对齐中间表达,使模型既可以学习其它任务的知识,又可以避免由于ALT方法中参数必须保持一致引起的模型之间的互相干扰。最终的实验结果也证明作者这一方法的正确性和有效性。

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值