面向推荐系统的多模态技术综述：模态增强、表征迁移、模型微调、提示调整、个性化内容生成

最新推荐文章于 2025-02-14 20:04:56 发布

小马不会过河

最新推荐文章于 2025-02-14 20:04:56 发布

阅读量1.2k

点赞数 23

文章标签：大数据人工智能算法语言模型自然语言处理数据库

本文链接：https://blog.csdn.net/m0_59163425/article/details/144145168

版权

在信息爆炸的时代，推荐系统帮助用户发现符合个人兴趣的内容。传统的推荐系统主要依赖用户和项目的历史数据，而新兴的多模态推荐系统能够利用文本、图像、音频和视频等多种类型的数据，提供更丰富、更准确的个性化推荐。这项研究有助于推动推荐系统的发展，使其能够更好地理解和预测用户的喜好。

个性化推荐作为用户发现信息或根据其兴趣定制项目的一种普遍渠道。然而，传统推荐模型主要依赖于唯一ID和分类特征进行用户-项目匹配，可能忽视了原始项目内容在多个模态（如文本、图像、音频和视频）中的微妙本质。这种对多模态数据的利用不足限制了推荐系统，特别是在新闻、音乐和短视频平台等多媒体服务中。最近预训练多模态模型的进步为开发内容感知推荐系统提供了新的机遇和挑战。本综述旨在全面探索多模态预训练、适应和生成技术的最新进展和未来轨迹，以及它们在推荐系统中的应用。此外，我们讨论了该领域未来研究的开放性挑战和机遇。我们希望，本综述连同我们的教程材料，将激发进一步的研究工作，推进这一不断发展的领域。

1 引言

推荐系统已在各种在线应用中得到广泛应用，包括电子商务网站、广告系统、流媒体服务和社交媒体平台，以向用户提供个性化推荐。它们的目标是丰富用户体验，提高用户参与度，并促进发现根据个人兴趣量身定制的信息或项目。然而，传统推荐模型主要依赖于唯一ID和分类特征进行用户-项目匹配，可能忽视了原始项目内容在多个模态（如文本、图像、音频和视频）中的微妙本质。这种对多模态数据的利用不足限制了推荐系统，特别是在新闻、音乐和短视频平台等多媒体服务中。

为了解决这一限制，研究人员在过去十年中广泛研究了多模态推荐技术，产生了大量研究，探索将多模态项目特征整合到推荐模型中。对于全面概述，感兴趣的读者可以参考最近的综述[13, 70, 80, 154]。这些综述主要深入探讨了推荐模型中的多模态特征提取[80]、特征表示[13]、特征交互[70]、特征对齐[13]、特征增强[70]和多模态融合[154]等技术。然而，这些方法大多依赖于提取的多模态特征嵌入，留下了多模态预训练和生成的其他方面相对未被探索。如今，预训练模型在自然语言处理（NLP）、计算机视觉（CV）和多模态系统（MM）领域获得了显著的流行。语言模型如GPT[6]和Llama[114]系列的出现开启了理解和生成语言的新能力时代，而CV领域则见证了ViT[17]和MAE[34]等模型的突破。利用这些在单模态领域的成功，多模态社区集中于对齐不同模态之间的内容，如CLIP[89]、CLAP[19]和BLIP-2[53]。值得注意的是，ChatGPT[84]、SD[95]和Sora[77]等开创性技术的最近引入，进一步推进了预训练大型模型的生成能力到前所未有的水平。这些最近预训练多模态模型的进步为开发内容感知推荐系统提供了新的机遇和挑战。

在本综述中，我们的目标是从新的角度提供多模态推荐技术的全面概述，重点关注利用预训练多模态模型。我们探索了多模态预训练、适应和生成技术的最新进展和未来轨迹，以及它们在推荐系统中的应用。与以往工作不同，我们的综述利用了最近在多模态预训练（例如，多模态语言模型[53, 85]）、适应（例如，提示调整[59, 156]）和生成技术（例如，稳定扩散[95]）方面的进步。此外，我们还深入探讨了在应用预训练多模态模型进行推荐任务时的最新实际发展和剩余的开放性挑战。

更具体地说，第2节介绍了多模态预训练的任务，强调了使用特定领域数据增强领域内多模态预训练的方法。第3节检查了多模态适应，阐明了如何通过表示转移、模型微调、适配器调整和提示调整等技术将预训练的多模态模型适应到下游推荐任务。第4节深入探讨了多模态生成的新兴主题，重点关注在推荐环境中应用人工智能生成内容（AIGC）技术。第5节，我们概述了一系列需要多模态推荐的常见应用，接着在第6节讨论了未来的研究挑战和机遇。最后，我们在第7节结束综述。我们希望，本综述连同我们的教程材料，将激发进一步的研究工作，推进这一不断发展的领域。

2 多模态预训练在推荐中的应用

与直接在特定领域数据上进行监督学习相比，自监督预训练从大规模未标记语料库中学习，然后使预训练模型适应下游领域。这种方法允许获取丰富的外部知识，导致其优越性得到广泛认可。在本节中，我们首先提供主要多模态预训练范式的概述和比较。然后，我们将介绍它们如何在不同的推荐场景中使用。

2.1 自监督预训练范式

广义上，根据它们的预训练任务，自监督预训练范式可以分为三种类型。重建范式指导模型使用隐藏表示恢复输入。根据重建内容的比例，它可以被分类为部分重建的掩码预测方法和完全重建的自编码器方法。具体来说，掩码预测方法[15]随机掩码数据信息，并迫使模型学习用剩余上下文预测它们，而自编码器方法[48, 96]首先将输入数据编码成紧凑的潜在表示，然后被训练以从潜在表示中完全准确地恢复它们。它们的成功迅速被其他领域采用，如视觉[17, 34, 116]、文本[51]、音频[11, 148]和多模态机器学习[1, 93, 108]。这种范式也在推荐系统的不同任务中取得了显著进展，包括基于ID的序列推荐[45, 110]、基于文本的推荐[54]、项目标记化[69, 92, 153]和多模态推荐[75, 158]。

尽管重建范式在内容理解方面具有很强的能力，但其依赖于全局信息进行预测，导致其在生成任务中的表现并不特别突出。对比范式更注重成对相似性，通过在表示空间中最大化非匹配对之间的距离并最小化匹配对之间的距离，学习区分相似和不相似的数据样本。它通常用于提高嵌入的质量，包括像SentenceBERT[94]这样的句子表示、PEMR[144]和CLMR[106]这样的音乐表示，以及CLIP[89]、CLAP[19]、Flamingo[2]、BLIP-2[53]和ImageBind[29]这样的多模态表示。通常，这种范式在推荐领域也很流行，如AQCL[86]用于特征学习，CL4SRec[137]用于序列建模，MGCL[67]、MMSSL[124]、MMCPR[78]和MSM4SR[150]用于多模态推荐。

自回归范式指导模型用序列数据进行训练，基于过去的观察预测后续元素。GPT（Generative Pre-Training）[6, 85, 90, 91]系列的成功证明了这种范式在NLP领域和多模态领域的有效性。在重建范式占据主导地位之前，推荐系统已经采用了这种直观且直接的预训练方法用于用户行为序列建模，如SASRec等[27, 46, 146]。如今，随着更多模态参与推荐项目资产，多模态自回归相关方法如VIP5[28]和MISSRec[119]被提出以更有效地利用模态信息。值得注意的是，尽管一些研究[54, 132]使用混合范式进行模型预训练，我们的分类主要集中在主要范式上。

2.2 模态增强预训练在推荐中的应用

多模态预训练的成功主要建立在单模态预训练的努力之上。通常，多模态预训练框架采用预训练的单模态模型作为特征编码器用于单一模态理解，并进一步使用跨模态特征（例如CLIP[89]中的文本-图像对）作为训练信号来增强其多模态理解能力。

在本节中，我们首先介绍单模态预训练的相关研究，然后描述在一般情况和推荐系统中的多模态预训练方法。基于文本的预训练。像BERT[15]和GPT-1/2[90, 91]这样的预训练语言模型已被用于实现上下文感知表示预训练，它采用预训练-微调范式来解决特定任务。最近，LLMs，如ChatGPT[84]和LLaMa[113]，展示了通过基于提示的范式直接解决一般任务的强大能力，基于模型大小和数据大小的扩展。同时，文本特征，这是推荐系统中常见的，已在各种场景中广泛探索预训练，如新闻推荐[71, 133]、跨域推荐[36,37]和大型推荐模型[27, 54]。基于音频的预训练。

用于文本预训练的技术也可以应用于音频预训练，因为它们具有类似的序列结构。像CLAP这样的方法[20, 32]被提出来学习音频表示。这些一般技术显著影响了音乐推荐任务中的预训练方法，如CALM[8]和MusicBert[149]。在工业界，音乐表示预训练也成为一种流行技术。Chen等人[10]提出通过对比学习从轨道数据和用户兴趣中学习音频嵌入。此外，Huang等人[43]将成对的文本和音频特征整合到一个卷积模型中，以联合学习它们的内容嵌入和相似性度量。基于视觉的预训练。

视觉预训练已从基于CNN的架构如ResNet[35]转变为Transformer架构模型，如ViT[17]和MAE[34]，实现了更深入和更任务特定的微调。这些举措对多模态预训练的格局产生了重要影响，影响了后续的多模态推荐预训练发展。值得注意的是，Lei等人[50]引入了一个对比学习框架，用于微视频推荐中的序列编码器训练。在这个框架中，还包含了一个视频编码器，允许视频编码器在初始预训练后进行进一步的预训练。多模态预训练。多模态预训练的兴起反映了处理不同模态的真实世界信号的需求。这项任务旨在通过跨模态对齐和跨模态融合等技术提高多模态内容理解。单流模型如VideoBERT[108]和VLBERT[107]奠定了基础，而双流模型，特别是ViLBERT[79]和CLIP[89]，变得更受欢迎。最近的创新[2, 19, 29, 53, 65]继续推动多模态学习的边界，并继续增强多模态推荐系统[67, 74, 76, 118, 119, 124, 150]。这些技术将对未来的推荐系统产生深远影响。

3 多模态适应在推荐中的应用

在模型预训练后，将其适应于推荐系统涉及策略性方法，以充分利用其学到的知识。在本节中，我们概述了四种主要的适应技术：表示转移、模型微调、适配器调整和提示调整。每种技术都提供了利用预训练模型能力的独特方式。

3.1 表示转移

表示转移通过将强大的预训练特征应用于下游任务的训练，有效地转移知识，这在各个领域都证明了其有效性[121]。在这里，这样的表示将为推荐系统提供额外的一般信息，缓解冷启动问题，即冷项目可能仅从有限的交互中学习到较差的嵌入[71]。成功的努力包括基于文本的推荐[129]、基于视觉的推荐[5, 99]、多模态推荐[18, 41, 62, 126, 140]展示了其有效性。

具体来说，在多模态场景中，来自不同模态的多种表示的融合可以分为早期融合[41, 72, 75, 159]、中期融合[18, 130, 140]和晚期融合[112, 127, 128]。然而，这种直接和高效的适应面临一个重大挑战，即减轻通用表示的偏差，这是由于与推荐领域的不一致造成的。模型微调作为解决这个问题的潜在解决方案而出现。此外，忘记模态特征的问题，正如KDSR[41]所指出的，表明这些表示可能变得类似于未经模态表示训练的表示。一个可行的解决方案是引入显式约束[41]，而另一种方法利用语义标记化[69, 92, 153]，将内容知识直接嵌入到标识符中。

3.2 模型微调

模型微调旨在通过特定任务在新上下文中提炼预训练模型的网络参数。这一策略从一开始就在NLP[109]、CV[22]和多模态机器学习领域受到欢迎。在推荐系统的领域中，无论是通用预训练模型，如BERT和ResNet，还是特定领域的模型，都已针对下游推荐任务进行了微调。

基于预训练模型要代表的目标，研究可以分为项目内容理解[55, 131, 141]，这是最多的比例，用户行为建模[88, 132, 135]，以及双方学习[33]。同时，基于微调任务，工作可以分为基于匹配的[33, 55, 131, 132]、基于排名的[66, 141, 151]和基于序列预测的[135]任务。然而，模型微调可能会显著增加新任务所需的参数数量，并因大型预训练模型的出现而遭受效率低下[84, 113, 160]。此外，它导致了灾难性遗忘的问题，这在持续学习中迅速恶化先前获得的信息。

3.3 适配器调整

适配器调整作为解决模型微调相关效率问题的解决方案[38, 60]，将紧凑的、特定任务的模块直接集成到预训练模型中。这种策略促进了针对性和高效的任务适应，而无需大量参数增长。在各个领域都被认为是有效的[98, 102]，这种方法现在已被推荐领域采用[24, 28, 37, 68, 134]。

例如，ONCE框架[68]使用LLaMA模型的LoRA[40]进行基于内容的推荐任务，将其用作项目编码器。同样，UniSRec[37]为BERT模型引入了项目端适配器，以增强跨多个领域的项目语义理解。此外，TransRec[24]和VIP5[28]都实现了逐层适配器，以增强多模态推荐系统。

3.4 提示调整

为了避免模型调整造成的灾难性遗忘，并进一步提高适应效率，提出了提示调整方法。它们通过调整任务可调的提示来提高模型性能，同时冻结模型参数。根据自动化水平，它们可以被划分为手动调整和自动调整方法。手动调整方法如COT[123]依赖于工程师的专业知识来设计更好的提示。自动调整方法以数据驱动的方式学习更好的提示。根据提示是否在离散标记空间中优化，它们可以进一步被分类为硬提示调整如AutoPrompt[103]和软提示调整如Prefix-Tuning[59]。现在，提示调整已被视觉学习[156]和多模态学习[47]接受，以提高模型准确性。在多模态推荐领域，由于基本范式的差异，提示调整仍然是一个新兴技术。最近的方法如RecPrompt[64]、ProLLM4Rec[138]和PBNR[58]改进了提示，以帮助LLM适应新闻推荐任务。而PromptMM[125]提取和适应多模态知识，以提示调整增强推荐。目前，这个研究领域还没有得到充分的探索，未来可以进行更多的研究。

4 多模态生成在推荐中的应用

随着生成模型的最新进展，人工智能生成内容（AIGC）在各种应用中获得了显著的流行。在本节中，我们探索了在推荐环境中使用AIGC技术的潜在研究方向。

4.1 文本生成

在强大的大型语言模型（LLMs）的支持下，文本生成已成为一种成熟的能力，并现在被应用于推荐领域的各种任务[82]。

关键词生成：关键词标记在广告定位和推荐的内容理解中扮演着关键角色。以前的技术大多依赖于从文本内容中显式提取关键词，可能会错过文本中不存在的重要关键词。因此，关键词生成技术已被广泛应用于增强关键词标记过程[52, 104]。
新闻标题生成：对个性化和吸引人的新闻内容的需求推动了新闻标题生成的探索。传统上，标题生成被框架化为文本摘要任务，将输入文本或多模态内容浓缩成标题[16, 49]。然而，典型的新闻标题可能缺乏对特定用户的吸引力或相关性，这促使需要个性化的方法。因此，个性化标题生成已成为一个引人注目的研究课题，专注于为个别用户的阅读偏好和可用新闻内容生成定制的标题[31, 97]。
营销文案生成：营销文案是指用于推广产品并激励消费者购买的文本。它在吸引用户兴趣和增强参与度方面发挥着重要作用。最近的努力集中在基于LLMs的自动营销文案撰写上[81, 155]。
解释生成：在交互场景中，对可解释推荐的需求显著增长。这涉及生成自然语言解释，以向个别用户解释推荐项目的原因，从而增强用户对系统的理解和信任[56, 152]。
对话生成：对话生成在会话推荐系统中至关重要，包括生成描述推荐项目的响应。此外，它还涉及生成问题以引导用户进行进一步的对话和互动[122]。

虽然这些任务受益于强大的LLMs，但在改进推荐系统的文本生成方面仍存在两个关键挑战：1) 可控生成：工业应用需要对生成的文本进行精确控制，以确保产品描述的正确性、使用独特的销售主张或遵守特定的写作风格[157]。2) 知识增强生成：现有的LLMs通常缺乏对特定领域知识的明确认识，例如产品实体、类别和卖点。最近的研究集中在整合特定领域的知识库，以实现更满意的结果[139]。

4.2 图像和视频生成

文本到图像生成在扩散模型（例如SD[95]）的普及下取得了显著的成功。在本节中，我们深入探讨了它们在电子商务和广告中的潜在应用。与自然图像生成不同，生成产品图像和广告横幅涉及处理复杂的布局，包括各种元素，如产品、标志和文本描述。因此，在设计一致的布局和有效地将文本与适当的字体和颜色整合以创建视觉吸引人的海报方面出现了独特的挑战。具体来说，Inoue等人[44]提出了LayoutDM，一个旨在有效处理结构化布局数据并促进离散扩散过程的模型。Hsu等人[39]通过在给定画布上排列预定义的空间元素来实现内容感知布局生成（即PosterLayout）。Lin等人[61]开发了AutoPoster，一个高度自动化和内容感知的系统，用于生成广告海报。同时，一些研究探讨了海报生成的文本设计。例如，Gao等人[25]引入了TextPainter，一种新颖的多模态方法，利用上下文视觉信息和相应的文本语义生成文本图像。Tuo等人[115]提出了一个基于扩散的多语言视觉文本生成和编辑模型，AnyText，解决了如何在图像中准确渲染一致文本的问题。

最近，视频生成取得了重大进展。Sora[77]作为该领域的突破性技术，展示了为各种产品生成广告视频的巨大潜力。在这种情况下，Gong等人[30]介绍了AtomoVideo，一种高保真图像到视频生成解决方案，有效地将产品图像转换为用于广告目的的引人入胜的促销视频。此外，Liu等人[63]设计了一个系统，能够自动从给定的一组视觉材料中生成视觉故事线，为电子商务量身定制引人注目的促销视频。此外，Wang等人[120]开发了一种集成方法，将文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块合并到一个端到端的视频生成管道中，这对于微视频推荐平台非常有价值。我们认为这个领域正在迅速扩展，使基于AIGC的推荐和广告应用得以发展。

4.3 个性化生成

随着AIGC的兴起，向个性化生成的转变尤为明显，旨在增强生成内容的定制化和个性化。这一趋势在推荐场景中具有特殊意义，因为个性化内容可以更好地迎合用户的兴趣。

在各个领域进行了开创性的工作，包括个性化新闻标题生成[3, 4, 7, 97]、电子商务中的个性化产品描述生成[14]、个性化答案生成[14]、个性化图像生成[17]和个性化多模态生成[101]。将推荐系统集成到个性化生成技术中，有望开发下一代推荐系统。

5 应用

在本节中，我们总结了需要多模态推荐技术的常见应用领域。

电子商务推荐。电子商务代表了推荐系统研究中最广泛研究的应用领域之一，旨在帮助用户发现他们可能购买的项目。电子商务中丰富的多模态数据，包括产品标题、描述、图像和评论，提出了将不同模态与用户交互数据整合以增强推荐质量的挑战。为了应对这一挑战，进行了许多研究努力。阿里巴巴[26, 57, 141]、京东[66, 136]和Pinterest[5]等著名的例子。
广告推荐。在线广告为许多Web应用提供了主要收入来源。广告创意在这个生态系统中扮演着关键角色，涵盖各种格式，如图像、标题和视频。审美创意有潜力吸引潜在用户，并提高产品的点击率（CTR）[9]。还有迫切需要更好地理解广告创意，以有效地将广告与用户兴趣对齐[142, 143]。
新闻推荐。个性化新闻推荐是帮助用户发现感兴趣新闻的关键技术。为了提高推荐准确性和多样性，推荐系统必须理解新闻内容并从用户的阅读历史中提取语义信息。这通常涉及学习新闻标题、摘要、正文和封面图像的语义表示。最近的研究集中在建模多个模态的特征，如MM-Rec[130]和IMRec[140]所示例。
视频推荐。随着微视频平台的流行，视频推荐在社区中引起了显著关注。视频包含多种模态，包括标题、缩略图图像、帧、音轨、剧本等。当前的研究工作集中在整合和适应微视频推荐模型中的多模态信息[127, 145]。值得注意的是，Ni等人[83]最近引入了一个全面的微视频推荐数据集，富含丰富的多模态边信息，以促进该领域的进一步研究。
音乐推荐。音乐流媒体服务领域代表了另一个需要多模态推荐技术的突出领域。在这个领域中，涉及多种多模态数据，包括音乐音频、乐谱、歌词、标签和评论。利用这些不同类型的音乐数据已被证明在制作旨在吸引用户的更个性化推荐方面是有效的；[10, 43]中可以找到著名的例子。此外，Shen等人[100]提出，整合来自用户社交媒体的多模态信息可以提供对他们的个性、情感和心理健康状况的洞察，从而提高音乐推荐的准确性。
时尚推荐。随着时尚产品的视觉和审美特性，时尚推荐已成为一个独特的垂直领域。与传统推荐系统不同，时尚推荐不仅建议单个项目，还建议补充多个项目的服装。多模态理解能力在这个领域中扮演着关键角色，包括从图像中定位时尚项目、识别它们的属性和计算多个项目的兼容性评分等任务[12, 105]。此外，开创性的工作[161]开发了文本到图像扩散模型，允许用户虚拟试穿服装。这些技术预计将增强时尚推荐的个性化，并提升用户体验到一个新的水平。

6 挑战和机遇

在本节中，我们讨论了持续的挑战和新出现的机遇，供未来研究。

多模态信息融合。多模态融合已在研究中得到广泛探索。在推荐系统中，当前研究主要集中在融合和适应项目的多模态特征嵌入到推荐模型[154]。然而，推荐中的多模态信息本质上采用了层次结构，从用户行为序列到单个项目，每个项目都包含多种模态，并进一步细分为语义标记和对象。此外，来自不同模态和区域的信息对不同用户的影响可能差异显著。因此，挑战在于有效地以层次化和个性化的方式融合多模态信息，以优化推荐。
多模态多域推荐。多模态信息为项目内容提供了丰富的语义洞察。尽管对多模态推荐和跨域推荐进行了大量研究，但有效地利用多模态信息来弥合跨域信息差距仍然是一个开放的挑战[111]。例如，基于用户的阅读习惯推荐音乐涉及模态间（音频与文本）和领域间（音乐与书籍）的语义对齐。
推荐的基础模型。虽然大型语言模型和大型多模态模型已成为NLP和CV领域基础模型，但将这种探索扩展到推荐领域存在一个引人注目的机会。理想的推荐基础模型应该展示出强大的上下文学习能力，同时保持在多样化任务和领域中的泛化能力[42]。探索的潜在途径包括适应现有的多模态LLMs进行推荐任务（例如，[28]），或者使用大规模多模态多域推荐数据从头开始预训练多模态生成模型。
推荐中的AIGC。AIGC的整合代表了推荐系统的一个重要进步，为显著增强用户个性化、参与度和整体体验提供了机会。这包括个性化新闻标题、定制广告创意和不同推荐上下文中的解释性内容。这个领域正在迅速扩展，主要挑战在于实现对内容和用户的全面理解，促进可控生成，并确保准确的格式化以优化用户体验。此外，必须解决由AIGC使用引起的潜在道德和隐私问题。
推荐智能体。基于LLM的智能体[117]已显示出通过广泛的知识和强大的推理能力自动化任务的卓越能力。这些智能体的整合为推荐领域引入了创新前景，特别是在会话推荐中。这涉及直接将用户参与到任务完成过程中，从而增强用户体验和推荐系统的有效性。一个具体的例子是，整合对话和虚拟试穿生成[161]能力可能为时尚推荐提供新的机会。
训练和推理的效率。推荐任务通常有严格的延迟要求，以满足实时服务需求。因此，确保训练和推理效率变得至关重要，当应用多模态预训练和生成技术时。对开发高效策略以利用多模态模型的能力有很高的需求。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述