RecSys多模 - IISAN

IISAN: Efficiently Adapting Multimodal Representation for Sequential Recommendation with Decoupled PEFT

1 INTRODUCTION

  1. 大模型(非LLM)对多模态特征强大的表征能力,使得在 (序列) 推荐任务中有出色表现;但其庞大参数量也导致了巨额的成本。
  2. 相比起 full fine-tuning (FFT) , Parameter-efficient Fine-tuning (PEFT)也只关注parameter efficiency,并没有显著提升GPU memory efficiency和training speed.

2 METHODOLOGY

  1. 定义了 practical efficiency metric (TPME),包含: training time, trainable parameters 和 GPU memory
  2. 提出了一种decoupled parameter-efficient fine-tuning方法(DPEFT):Intra- and Inter-modal Side Adapted Network (IISAN) ,并结合cache,在不损效果的前提下优化性能。(本质上就是将解构参数从原始大模型参数中剥离出来作为额外插件)
    在这里插入图片描述

2.1 IISAN

在这里插入图片描述

  1. encoder为pretrain且fix参数的 文本大模型 和 图片大模型。因为encoder参数不更新,所以可以用cache缓存所有hidden stat,加速优化过程
  2. 在encoder基础上引入SAN(SAN block组成)进行模态内/间建模。 h i B ∗ h_i^{B^{*}} hiB表示第i层的对应SAN block隐层, h i ∗ h_i^{*} hi为encoder第i隐层,用Gate控制input融合。
    在这里插入图片描述
    在这里插入图片描述
    最终融合得到单item的表示,再接入序列rec网络
    在这里插入图片描述
  3. 采用batch内Cross-Entropy loss
    在这里插入图片描述

2.2 New Efficiency metric: TPME

对所有评估模型计算cost复合指标:先归一化,再融合打分 α 1 = α 3 = 0.45 , α 2 = 0.1 \alpha_1=\alpha_3=0.45, \alpha_2=0.1 α1=α3=0.45,α2=0.1
在这里插入图片描述
在这里插入图片描述

3 ANALYSIS OF EFFICIENCY

在这里插入图片描述

  1. Training-time Efficiency,训练耗时主要在forward passes (𝐹𝑃), backward passes (𝐵𝑃) and weight updates (𝑊 𝑈 )三个阶段。令FFT耗时为𝑂(𝐹𝑃), 𝑂(𝐵𝑃) 和𝑂(𝑊𝑈),小网络为𝑂(𝑓𝑝), 𝑂(𝑏𝑝)和𝑂(𝑤𝑢) (以下下其余同定义)
    (1) PEFT只需要更新小网络,WU->wu
    (2) IISAN(Uncached)实现了小网络与大模型解耦,BP->bp;(Cached)节省了FP,FP->fp
  2. Parameter Efficiency,有云存储 -> 作者认为相比别的目标不重要
  3. GPU Memory Efficiency,主要消耗在(i) model weights, (ii) gradients, (iii) optimizer states, (iv) forward activations saved for gradient computation, and (vi) Others (temporary buffers, functionality-specific memory, etc.,但这些可以忽略),假定条件model weights = gradients,优化器为Adam
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

5 EXPERIMENT

  1. IISAN不损效果,且性能显著优化
    在这里插入图片描述
  2. IISAN即使更换不同的大模型组合,效果依然很robust
    在这里插入图片描述
  3. 除了SAN网络外,还对其他子结构做了消融实验,其中
    (1)模态内 & 模态间交互都是有效的,而在作者的实验中,文本特征更重要(图片特征融合系数0.2~0.4)
    (2) encoder两个隐层嵌入一个SANB更有效 (作者认为是LayerDrop)
    在这里插入图片描述
  4. 对于所有结构而言,多模态比单模态更有效
    在这里插入图片描述
  • 29
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值