Gavin老师Transformer直播课感悟 - 基于Transformer的Poly-Encoder架构体系解密(二)

本文详细介绍了基于Transformer的Poly-Encoder架构,对比了Bi-encoder和Cross-encoder,重点讨论其在对话response selection和信息检索任务中的表现。通过预训练和fine-tuning,实验表明Poly-Encoder结合了两者的优势,能够有效平衡模型速度与质量。
摘要由CSDN通过智能技术生成

        本文继续围绕下面这篇论文来解析基于Transformer采用Poly-Encoder的架构是如何来平衡模型的速度和质量表现,以及它与Bi-encoder,Cross-encoder架构的对比等。

四、相关任务介绍

        主要考虑两类任务:对话response selection任务,文章信息提取任务(IR,information retrieval)。对于前者,在这两个竞赛里得到了进一步的研究:ConvAI2竞赛和DSTC7挑战赛。另外也基于Ubuntu V2语料库进行了测试,对于IR则使用了Wikipedia的文章搜索。

        ConvAI2是基于由不同对话者通过扮演人物角色而形成的对话数据集,每个对话者基于所扮演的角色,用语言描述他们希望模仿的一个特征,如“I love romantic movies”,通过这种方式增进彼此间的了解。从模型的角度讲,需要基于对话历史和人物角色来进行response的选择。对于每个response,模型必须从20个候选responses的集合中选出正确的response,除了这个正确的response,其它的19个是随机从评价数据集抽取的,可以把它们看做是负样本。最终优胜者使用了预训练的Transformer模型并加上fine-tuning的过程,基于测试数据集获得了80.7%的准确度。

        DSTC7使用了从Ubuntu对话数据集抽取的数据,最终优胜者获得了64.5%的任务完成准确度。

        最后,基于Wikipedia文章搜索来评价一条给定的语句来自于哪篇文章,这里使用了retrieval评价指标,通过这项任务发现最好的模型是采用”learning-to-rank” embedding这种方式,即StarSpace,它的表现胜过fastText,SVMs等。

五、方法论

    评论
    添加红包

    请填写红包祝福语或标题

    红包个数最小为10个

    红包金额最低5元

    当前余额3.43前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝 规则
    hope_wisdom
    发出的红包
    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值