[paper阅读笔记][2023]DSI++: Updating Transformer Memory with New Documents

瘦小星

于 2024-07-30 17:52:32 发布

阅读量779

点赞数 16

分类专栏： paper阅读笔记文章标签：笔记 transformer 深度学习论文阅读人工智能

本文链接：https://blog.csdn.net/Xysxx/article/details/140802789

版权

9 篇文章 0 订阅

订阅专栏

文章：https://arxiv.org/pdf/2212.09744v1

Paper的任务

解决在不断变化的文档集合中，更新和维护一个可微搜索索引（Differentiable Search Index, DSI）的问题。

本文任务虽然是：在动态文档集合中更新和维护可微分搜索索引（DSI），但其实其本质科学问题是：如何在模型持续学习新信息的同时减少对旧知识的遗忘。

原因是：当模型面对新文档时如何有效地整合新知识而不丢失之前学习到的相关信息是持续学习中的一个核心问题。

所以，只要是涉及到如何在模型学习新任务时减少对旧任务知识遗忘的问题，都可以试试本文的方法。

如何在模型不断学习新文档的同时，最小化对旧知识的遗忘。这涉及到在持续学习环境中，模型在面对新文档数据时，需要有效地整合新知识而不丢失之前学习到的信息，特别是在没有访问先前文档查询的条件下。

1. Sharpness-Aware Minimization (SAM): 为了减少在记忆过程中的遗忘现象，作者采用了SAM技术来优化训练动态。SAM通过寻找更平坦的损失盆地，帮助模型更稳定地记忆文档，减少遗忘。
2. 生成式记忆（Generative Memory）: 为了解决新文档带来的显式遗忘问题，作者引入了一个生成式记忆模块。这个模块可以为已经索引的文档生成伪查询（pseudo-queries），并在持续索引过程中使用这些伪查询来辅助训练，从而减少对旧文档的遗忘。
3. 经验重放（Experience Replay）: 利用生成式记忆生成的伪查询，作者实现了一种经验重放机制。这允许模型在索引新文档的同时，通过重放旧文档的伪查询来复习和保持对旧知识的记忆。
4. 增量索引（Incremental Indexing）: DSI++支持增量索引，这意味着模型可以逐步整合新文档到索引中，而不需要对整个文档集合进行重新训练。
5. 半监督学习（Semi-Supervised Learning）: 通过生成式记忆，DSI++能够在没有标签的新文档上进行半监督学习，提高模型对新信息的适应能力。

- 基准模型性能评估：使用不同规模的模型（T5-Base, T5-Large, T5-XL）和文档标识符（docid）表示方法来评估DSI模型在索引准确性和检索任务（Hits@1, Hits@10）上的性能。
- 遗忘和前向迁移研究：通过增量索引新文档集合来研究模型在遗忘（Forgetting）和学习表现（Learning performance, LAn）上的行为。
- SAM优化器的影响：比较SAM（Sharpness-Aware Minimization）优化器与Adafactor优化器在减少隐式遗忘方面的效果。
- 生成式记忆的有效性：评估引入生成式记忆来生成伪查询，并在持续索引中使用这些伪查询来减轻检索任务遗忘的效果。
- 不同数据集的泛化能力：在Natural Questions (NQ)和MS MARCO数据集上测试所提方法，以展示其泛化能力。

总体结论：为了有效地更新和维护在动态变化的文档集合中的可微分搜索索引（DSI），DSI++方法提供了一种有效的解决方案。
贡献点结论：通过引入SAM（Sharpness-Aware Minimization）优化和生成式记忆机制，DSI++能够减少在学习新文档时对旧文档的遗忘，并且提高了检索任务的性能。

关注