RecSys多模 - IISAN

GelaBute

于 2024-08-21 19:47:12 发布

阅读量990

点赞数 29

分类专栏： Recsys多模特征文章标签：推荐系统

本文链接：https://blog.csdn.net/qq_41196438/article/details/141396133

版权

2 篇文章 0 订阅

订阅专栏

1 INTRODUCTION

大模型（非LLM）对多模态特征强大的表征能力，使得在 (序列) 推荐任务中有出色表现；但其庞大参数量也导致了巨额的成本。
相比起 full fine-tuning (FFT) ， Parameter-efficient Fine-tuning (PEFT)也只关注parameter efficiency，并没有显著提升GPU memory efficiency和training speed.

定义了 practical efficiency metric (TPME)，包含： training time, trainable parameters 和 GPU memory
提出了一种decoupled parameter-efficient fine-tuning方法(DPEFT)：Intra- and Inter-modal Side Adapted Network (IISAN) ，并结合cache，在不损效果的前提下优化性能。（本质上就是将解构参数从原始大模型参数中剥离出来作为额外插件）

在这里插入图片描述

encoder为pretrain且fix参数的文本大模型和图片大模型。因为encoder参数不更新，所以可以用cache缓存所有hidden stat，加速优化过程
在encoder基础上引入SAN（SAN block组成）进行模态内/间建模。 $h_i^{B^{*}}$ 表示第i层的对应SAN block隐层， $h_i^{*}$ 为encoder第i隐层，用Gate控制input融合。

最终融合得到单item的表示，再接入序列rec网络
采用batch内Cross-Entropy loss

对所有评估模型计算cost复合指标：先归一化，再融合打分 $\alpha_1=\alpha_3=0.45, \alpha_2=0.1$
在这里插入图片描述

在这里插入图片描述

Training-time Efficiency，训练耗时主要在forward passes (𝐹𝑃), backward passes (𝐵𝑃) and weight updates (𝑊 𝑈 )三个阶段。令FFT耗时为𝑂(𝐹𝑃), 𝑂(𝐵𝑃) 和𝑂(𝑊𝑈)，小网络为𝑂(𝑓𝑝), 𝑂(𝑏𝑝)和𝑂(𝑤𝑢) （以下下其余同定义）
(1) PEFT只需要更新小网络，WU->wu
(2) IISAN(Uncached)实现了小网络与大模型解耦，BP->bp；(Cached)节省了FP，FP->fp
Parameter Efficiency，有云存储 -> 作者认为相比别的目标不重要
GPU Memory Efficiency，主要消耗在(i) model weights, (ii) gradients, (iii) optimizer states, (iv) forward activations saved for gradient computation, and (vi) Others (temporary buffers, functionality-specific memory, etc.，但这些可以忽略)，假定条件model weights = gradients，优化器为Adam

IISAN不损效果，且性能显著优化
IISAN即使更换不同的大模型组合，效果依然很robust
除了SAN网络外，还对其他子结构做了消融实验，其中
(1)模态内 & 模态间交互都是有效的，而在作者的实验中，文本特征更重要(图片特征融合系数0.2~0.4)
(2) encoder两个隐层嵌入一个SANB更有效 (作者认为是LayerDrop)
对于所有结构而言，多模态比单模态更有效