Paper notes
文章平均质量分 91
默默无闻的[UNK]
这个作者很懒,什么都没留下…
展开
-
[AAAI 2020] Improved Knowledge Distillation via Teacher Assistant
当student和teacher间的size gap较大时,student的性能会下降。为了缓解这个问题,我们引入了多步知识蒸馏,应用一个中间大小的网络(助教)来弥补teacher和student之间的gap。原创 2023-03-01 17:05:26 · 584 阅读 · 0 评论 -
[ACL 2022] BERT Learns to Teach: Knowledge Distillation with Meta Learning
之前的工作通常训练一个大模型作为teacher,然后保持teacher不动训练student模型来完成teacher模型知识的迁移。然而这种做法有以下缺点:1)teacher不了解student的能力。近来有一些工作通过联合训练teacher和student来引入student-aware的蒸馏,但是这种方法也有提升的空间,因为2)teacher不是为了蒸馏优化的。之前的工作中,teacher通常都是为了自己的推理性能而优化的。原创 2023-03-01 15:19:15 · 267 阅读 · 0 评论 -
[COLING 2022] DABERT: Dual Attention Enhanced BERT for Semantic Matching
基于Transformer的预训练语言模型,如BERT,在语义匹配方面取得了显著的成果。然而,现有的模型仍然存在捕捉细微差异的能力不足的问题。为了缓解这一问题,我们提出了一种新型的双注意增强型BERT(DABERT),以增强BERT捕捉句子对中细微差异的能力。原创 2022-11-01 14:08:59 · 402 阅读 · 0 评论 -
[EMNLP 2022] VIRT: Improving Representation-based Text Matching via Virtual Interaction
本文提出了一种虚拟交互(VIRT)机制,它通过将交互模型的注意图蒸馏给表征模型的Siamese编码器来近似交互建模能力,而不需要额外的推理成本。原创 2022-10-31 12:30:28 · 317 阅读 · 0 评论 -
Large Dual Encoders Are Generalizable Retrievers
Large Dual Encoders Are Generalizable Retrievers(arXiv)原文地址:https://arxiv.org/pdf/2112.07899.pdfMotivation之前的研究发现,在一个领域上训练的双塔模型通常不能泛化到其他领域的检索任务。一种普遍的看法是双塔模型的bottleneck layer (点积操作层) 太过受限以至于双塔模型不能成为有好的领域外泛化能力的检索模型。本文通过 固定bottleneck向量大小,增加双塔模型的容量 来挑战这种看法。原创 2022-02-20 15:08:56 · 955 阅读 · 0 评论 -
[EMNLP 2021] SimCSE: Simple Contrastive Learning of Sentence Embeddings
无监督的SimCSE将句子过两次预训练模型得到两个不同的embedding作为正例对,将同一batch中的其他句子作为负例,模型在所有负例中预测出唯一的正例。有监督的SimCSE使用NLI数据,将蕴含关系对作为正例,矛盾关系及batch内其他的句子作为负例。原创 2022-01-24 18:26:32 · 1411 阅读 · 0 评论