本文继续围绕下面这篇论文来解析基于Transformer采用Poly-Encoder的架构是如何来平衡模型的速度和质量表现,以及它与Bi-encoder,Cross-encoder架构的对比等。
四、相关任务介绍
主要考虑两类任务:对话response selection任务,文章信息提取任务(IR,information retrieval)。对于前者,在这两个竞赛里得到了进一步的研究:ConvAI2竞赛和DSTC7挑战赛。另外也基于Ubuntu V2语料库进行了测试,对于IR则使用了Wikipedia的文章搜索。
ConvAI2是基于由不同对话者通过扮演人物角色而形成的对话数据集,每个对话者基于所扮演的角色,用语言描述他们希望模仿的一个特征,如“I love romantic movies”,通过这种方式增进彼此间的了解。从模型的角度讲,需要基于对话历史和人物角色来进行response的选择。对于每个response,模型必须从20个候选responses的集合中选出正确的response,除了这个正确的response,其它的19个是随机从评价数据集抽取的,可以把它们看做是负样本。最终优胜者使用了预训练的Transformer模型并加上fine-tuning的过程,基于测试数据集获得了80.7%的准确度。
DSTC7使用了从Ubuntu对话数据集抽取的数据,最终优胜者获得了64.5%的任务完成准确度。
最后,基于Wikipedia文章搜索来评价一条给定的语句来自于哪篇文章,这里使用了retrieval评价指标,通过这项任务发现最好的模型是采用”learning-to-rank” embedding这种方式,即StarSpace,它的表现胜过fastText,SVMs等。
五、方法论