多模态信息用于推荐系统问题（MMDIN，hyperCTR）-CSDN博客

本文链接：https://blog.csdn.net/qq_39388410/article/details/121458783

继续续更之前的系列：多模态信息用于推荐系统问题（LOGO，MMGCN，MKGAT）。本期博文主要整理一下2021有意思的几篇文章。

[CIKM2021] MultiHead MultiModal Deep Interest Recommendation Network
首先是来自CIKM2021的文章，基于DIN模型的多模态信息优化。有关DIN模型不做赘述，传送门：注意力机制用于推荐系统问题(DIN，DIEN，BERT4Rec，PRM)。其主要是一种基于Attention的模型。本篇文章的作者认为现有的推荐系统技术对模型网络结构的优化较多，但对丰富推荐模型特征的研究较少，即不能很好的利用多模态信息。因此作者基于DIN，提出了multi-head multi-modal deep interest recommendation network (MMDIN)网络，即增加了多头模态和多模态模块。这样做即可以丰富模型可以使用的特征集，同时增强模型的交叉组合和拟合能力。模型结构如下图：

在这里插入图片描述
MMDIN模型主要包括三个关键模块。

多模态模块（图中的红色虚线框）。主要负责提取海报的颜色特征，如提取电影海报图片的饱和度、亮度、色度、空间频率、RGB值等的均值和标准差特征（注作者主要使用MovieLens dataset）。然后进行one-hot嵌入，再分别连接到电影特征和用户特征即可。
注意力模块（图中的黄色虚线框）。与DIN模型基本相同，输入主要分为两部分：一部分是用户最近评分的电影，另一部分是候选电影。注意力的计算主要是针对于历史的Movies和候选Movies进行外积来得到。
Multi-Head ResNet 模块（图中的紫色虚线框的部分）。将用户特征、候选电影特征、加权和合并用户历史评分特征和场景特征连接并扁平，然后输入多头ResNet模块，进行最终的电影评分预测。

在这里插入图片描述
[CIKM2021] Click-Through Rate Prediction with Multi-Modal Hypergraphs
来自CIKM2021的点击率预测的文章，博主个人觉得做的比较复杂。这篇文章与多模态信息的结合点是，现有的CTR预测工作只关注于从单模态特征进行的两两交互建模，但很少有人去利用广泛可用的多模态特性，一般来说多模态信息可以为模型提供更多的补充信息，而这是无法单独通过单模态建模获得的。

但挑战在于，CTR预测中的用户和项目交互很稀疏，那么在考虑多模态的时候，如item的视觉、声学和文本特征时，数据集的稀疏性会增加三倍。因此，如何在不影响多模态特征性能的情况下，有效地缓解多模态特征所引入的稀疏性问题是解决该问题的关键。因此作者提出的解决方案会很有意思，利用Hypergraph超图来解决这一问题。

超图作为一种特殊的Graph，它可以连接两个以上的节点，通过该模型可以缓解各模态下用户与项之间的稀疏性问题。如上图的示意图，展示了modality-originated hypergraph的构建，即用户𝑢1和用户𝑢2都与多个短视频进行过交互如𝑖1和𝑖2，因此在每个模态的超边上都可以连接多个item节点，如帧、声学、文本等都可以合并到用户项超图中，以帮助建立对用户偏好的深入理解。

然后为了更好地捕获用户的偏好，该超图由对项目共享相同兴趣的多个用户组和时间推移组成（group-aware and time-aware）。

group-aware。即一组对某个特定模态内容具有共同偏好的用户们。通过group-aware超图，每个用户都可以与item的其中一种模式进行交互，而不同的item则可以与同一个用户进行交互。例如，用户𝑢1喜欢𝑖1的框架，而𝑢1会更多关注视觉模态。
time-aware。用户偏好会随着时间的推移而演变，如下图。用户𝑢1在时间戳𝑁观看了游泳和卡通视频，说明用户有两个非常不同的兴趣，因此使用更多的用户行为建模方法来建模动态的兴趣比较重要。

作者们提出了HyperCTR来融合以上问题来解决，模型图如下，该框架可分为时间用户行为注意模块、基于兴趣的用户超边缘生成模块、项目超图构建模块和预测模块四个部分。

在这里插入图片描述
快速来看看每一个模块做了些什么：

时间用户行为注意模块（Temporal User behavior Attention Module）。如图上半的蓝色部分，实现比较简单是利用RNN+Attention来建模，其中Attention部分使用multi-head Attention。
超图生成模块（Hypergraph Generation Modules）。这里分为 Interest-based User和 Item两种构建方式，如上图的下半部分。对于User主要是看那些模态是这个用户感兴趣的，但是缺少标注数据咯，因此通过自监督对比学习框架设计了一个损失函数，以最大化不同模态之间的互信息来决定。然后对于item来说，构建一个同构的超图就好。
超图卷积（Hypergraph Convolution Network (HGCN)）。构完超图之后，学习表示就套公式就好： $X^{(l+1)}=\sigma(D^{-0.5}_v HWD^{-0.5}_v X^{(l)}\Theta^{(l)})$
预测模块。这里需要先融合一下group-aware and time-aware，主要使用外积来融合以建模所有的可能性，最后再预测CTR。