Gavin老师Transformer直播课感悟 - 基于Transformer的Poly-Encoder架构体系解密(二）

最新推荐文章于 2024-11-02 14:56:12 发布

m0_49380401

最新推荐文章于 2024-11-02 14:56:12 发布

阅读量3.5k

点赞数 25

分类专栏： AI 文章标签： transformer 架构深度学习

本文链接：https://blog.csdn.net/m0_49380401/article/details/122016741

版权

本文详细介绍了基于Transformer的Poly-Encoder架构，对比了Bi-encoder和Cross-encoder，重点讨论其在对话response selection和信息检索任务中的表现。通过预训练和fine-tuning，实验表明Poly-Encoder结合了两者的优势，能够有效平衡模型速度与质量。

摘要由CSDN通过智能技术生成

本文继续围绕下面这篇论文来解析基于Transformer采用Poly-Encoder的架构是如何来平衡模型的速度和质量表现，以及它与Bi-encoder，Cross-encoder架构的对比等。

四、相关任务介绍

主要考虑两类任务：对话response selection任务，文章信息提取任务（IR，information retrieval）。对于前者，在这两个竞赛里得到了进一步的研究：ConvAI2竞赛和DSTC7挑战赛。另外也基于Ubuntu V2语料库进行了测试，对于IR则使用了Wikipedia的文章搜索。

ConvAI2是基于由不同对话者通过扮演人物角色而形成的对话数据集，每个对话者基于所扮演的角色，用语言描述他们希望模仿的一个特征，如“I love romantic movies”，通过这种方式增进彼此间的了解。从模型的角度讲，需要基于对话历史和人物角色来进行response的选择。对于每个response，模型必须从20个候选responses的集合中选出正确的response，除了这个正确的response，其它的19个是随机从评价数据集抽取的，可以把它们看做是负样本。最终优胜者使用了预训练的Transformer模型并加上fine-tuning的过程，基于测试数据集获得了80.7%的准确度。

DSTC7使用了从Ubuntu对话数据集抽取的数据，最终优胜者获得了64.5%的任务完成准确度。

最后，基于Wikipedia文章搜索来评价一条给定的语句来自于哪篇文章，这里使用了retrieval评价指标，通过这项任务发现最好的模型是采用”learning-to-rank” embedding这种方式，即StarSpace，它的表现胜过fastText，SVMs等。

五、方法论