说明:《Similar but not the Same: Word Sense Disambiguation
Improves Event Detection via Neural Representation Matching》(EMNLP 2018)
一、motivation
- 词义消歧(Word Sense Disambiguation,WSD):根据一个多义词在文本中出现的上下文环境来确定其具体词义。
- 事件检测(Event Detection,ED):找到给定文本中的事件触发词,然后将其分类到预先设定的事件类型中。
从上述两个任务的定义可以看出这两个任务之间存在一定的相似性:
- Similar Context Modeling:给定单词和所在上下文,WSD和ED模型都需要为其预测一个类别标签。对于WSD模型而言,标签代表了这个词的具体词义;对于ED模型而言,这个标签代表了事件的具体类型。
- Close Semantic Consideration:从WSD中学习到单词的具体词义有利于确定事件的类型。
因此,作者提出可以利用WSD学习到的语义和上下文信息来提高ED的效果。
二、method
首先看一下迁移学习和多任务学习常用的两种方法。
-
Pretrain + fine-tune
该方法通常先在大规模数据上进行预训练,然后固定模型部分参数或者直接在特定任务数据集上进行微调。 -
ALT
ALT( alternate the training process for the parameter-shared models of the related tasks),是指对于多个存在一定联系的任务,使用同一个模型在不同任务的数据集上交替进行训练。在这个过程中,模型可以将从其它任务中学习到的知识迁移到当前任务中,从而提高模型在当前任务上的效果。
作者认为这两种方法并不适用于当前实验。因为WSD分类的粒度较细(同一个词在词典通常具有较多的词义),而ED分类偏向粗粒度(同一个词对应的事件类型相对较少),因此在交替训练过程中,会彼此干扰,从而影响模型的最终表现。
基于这个考虑,作者提出了一个新的方法:采用相同的模型结构,不同的模型参数,在训练过程中通过loss函数来要求两个模型对于同一输入得到接近的中间表达,最后基于这个中间表达来进行各自任务的分类。这种迁移学习可以视为一种隐性的迁移学习,通过对齐中间表达,使模型既可以学习其它任务的知识,又可以避免由于ALT方法中参数必须保持一致引起的模型之间的互相干扰。最终的实验结果也证明作者这一方法的正确性和有效性。