《Same Representation,Different Attentions:Shareable Sentence Representation》阅读笔记

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/Kirito_Acmer/article/details/85261713

之后会不定期分享论文笔记。

摘要

不同的任务句子表示不同,而且句子表示受限于不多的训练数据。论文提出一个橘子表示的模型可以用于多种任务。所有任务分享相同的句子表示,每个任务可以从共享的句子表示中利用attention机制抽取任务特定的信息。每个任务注意力机制的问题向量可以是静态的参数也可以是动态的。论文在16个不同的文本分类任务中做实验,并取得了很好的效果。

背景

词向量在多个任务中已经有成熟的表示,比如skip-gram,Glove。而句子向量在不同的任务中侧重点不同,得到的表示也不同。以这个句子“The infantile cart is easy to use”

在领域分类任务中,句子表示主要根据“infantile cart”,而在情感飞来分类任务中,句子,句子表示主要根据“easy to use”。

方法一:在无标签预料中通过无监督学习任务预训练模型。

缺点:最终结果可能会提高,但不能保证,因为未直接优化特定任务。

 

方法二:多任务学习

指的是在其他相关任务帮助下提升这个任务的表现。

大多数多任务学习试图把句子的表示成私有和共享表示。共享的表示用于所有任务,而私有的表示对于各个任务都不同。

在现有的模型中共享的表示和私有表示有的是叠在一起,有的是并行的。论文提出的模型只包含共享的表示,对于特定的任务,使用注意力机制通过一个任务独立的query向量来从共享表示中选取特定任务有关的信息。

模型框架

1.静态q向量模型

这个模型中q向量是静态的,改变的只有它的参数。

2.动态q向量模型

这个模型左半边是一个domain分类器, q^{(DC)}和前面静态q向量模型中 q^{(k)} 一样是静态q向量,为了抽取出而domain的信息,然后再输入到动态q向量模型的 q^{(k)} 计算具体任务的分类。

实验结果

没有更多推荐了,返回首页