[论文笔记] Non-invasive Self-attention for Side Information Fusion in Sequential Recommendation-CSDN博客

本文链接：https://blog.csdn.net/THOOOR/article/details/119800409

该论文提出了NOVA-BERT框架，通过非侵入性自注意力机制在BERT下有效利用边信息进行顺序推荐。NOVA避免直接改变物品嵌入，而是通过辅助信息学习更好的注意力分布，从而提高预测精度和模型性能。实验展示了NOVA-BERT在多种场景下优于现有方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原文地址
 Non-invasive Self-attention for Side Information Fusion in Sequential Recommendation

顺序推荐系统旨在根据用户的历史行为对用户不断变化的兴趣进行建模，从而做出与时间相关的定制推荐。本文提出了 NOninVasive self-Attention 机制 (NOVA) 以在 BERT 框架下有效地利用边信息。 NOVA 利用辅助信息来生成更好的注意力分布，而不是直接改变物品嵌入，这可能会导致信息过多。

本文研究了如何在成功的 BERT 框架下有效利用各种辅助信息，提出了 NOVA，它可以通过辅助信息持续提高预测精度，并在所有的实验中实现最先进的性能。如图 1 所示，在 NOVA 中，辅助信息作为自注意力模块的辅助来学习更好的注意力分布，而不是被融合到物品表示中，这可能会导致信息压倒性等副作用。

本文主要贡献：

提出了 NOVA-BERT 框架，它可以有效地将各种辅助信息用于顺序推荐任务；
提出了非侵入性自注意力（NOVA）机制，这是一种新颖的设计，可以对复合顺序数据进行自注意力；
进行详细的实验和部署以证明 NOVA-BERT 的有效性，包括可视化分析以获得更好的可解释性。

1. 相关工作

在顺序推荐领域，充分利用边信息来提高准确率也是一个长期讨论的话题。如表 1 所示，在 CNN、RNN、注意力模型和 BERT 等不同框架下，之前的一些工作试图利用边信息。尽管如此，他们中的大多数都使用了辅助信息，而没有过多研究如何添加辅助信息。几乎所有人都使用一种我们称之为“侵入性”融合的简单做法。

Invasive approaches

大多数以前的工作，直接将边信息融合到物品表示中，如图 1(a) 所示。他们通常使用融合操作（例如，求和、串联、门控求和）将额外信息与物品 ID 信息合并，然后将混合物输入神经网络。我们称这种直接合并做法为“侵入性方法”，因为它们改变了原始表示。

如表 1 所示，之前的 CNN 和 RNN 工作试图通过将边信息直接融合到具有连接和加法等操作的物品嵌入中来利用边信息。 GRU等其他一些作品提出了更复杂的特征融合门机制和其他训练技巧，试图使特征选择成为一个可学习的过程。然而，根据他们的实验结果，简单的方法不能有效地利用各种场景下的丰富边信息。尽管可以通过为每种类型的辅助信息部署并行子网来提高预测精度，但该模型变得繁琐且不灵活。

另一项研究没有直接改变物品嵌入，而是通过称为物品提升的技巧包括 RNN 模型的停留时间。一般的想法是让损失函数知道停留时间。用户查看物品的时间越长，他/她就越感兴趣。然而，这个技巧在很大程度上依赖于启发式，并且仅限于与行为相关的辅助信息。另一方面，一些与物品相关的辅助信息（例如价格）描述了物品的内在特征，这些特征不像停留时间那样容易被这种方法利用。