#今日论文推荐# 双塔模型的最强出装，谷歌又开始玩起“老古董”了？

最新推荐文章于 2024-09-11 10:30:00 发布

wwwsxn

最新推荐文章于 2024-09-11 10:30:00 发布

阅读量195

点赞数

分类专栏：深度学习文章标签：大数据

原文链接：https://www.aminer.cn/research_report/62c7a3777cb68b460fe5caaa

版权

深度学习专栏收录该内容

716 篇文章 30 订阅

订阅专栏

#今日论文推荐# 双塔模型的最强出装，谷歌又开始玩起“老古董”了？

双塔模型已经证明在搜索和问答任务中是非常有效的建模方法，理论和业务落地已相当成熟。双塔根据参数共享程度不同，通常会归纳成两类：Simese dual encoder和Asymmetric dual encoder，前者参数结构完全对称，后者则是不完全对称（下文简称SDE和ADE）。
本篇论文是继双塔沉寂许久之后，谷歌再次将它推到宇宙中心，并打开双塔的最强出装，详细地探索两者的区别和关联，也通过实验给出了双塔结构的更多经验性结论。适合老司机再次回味经典和小白做深刻且系统地入门～

首先科普下什么是SDE和ADE？双编码器网络结构是将text1和text2分别编码成向量表征，然后计算两者的cosine等距离函数衡量其相似度。SDE是完全共享参数的双胞胎网络，也就是虽说是双塔，但实际上query/user和doc/item共用一套参数；ADE只是部分参数共享或者完全不共享，是独立的两套参数网络。它们的共同点是都不会进行深层交互，对比BERT则是典型的交互式网络。双塔结构一个最典型的应用是召回or粗排,对计算速度要求严格的场景。

双塔的建模思想是比较简单和容易理解的。本篇文章短小精悍，亮点就在于提供双塔应用场景下一个较通用的结论，解释清楚了几个疑问：

ADE和SDE在QA任务上哪一个效果更好？
ADE表现差的原因是什么？解决办法是什么？

作者通过合理且详实的实验得到可靠的结论，小白也可以迅速get到如何在（向）实（导）验（师）做科（汇）研（报）。

论文题目：Exploring Dual Encoder Architectures for Question Answering
详细解读：https://www.aminer.cn/research_report/62c7a3777cb68b460fe5caaahttps://www.aminer.cn/research_report/62c7a3777cb68b460fe5caaa
AMiner链接：https://www.aminer.cn/?f=cs

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。