Attention-based Multimodal Feature Representation Model for Micro-video Recommendation

Multiset

已于 2023-05-29 14:30:49 修改

阅读量138

点赞数

分类专栏：多模态推荐文章标签：计算机视觉人工智能

于 2023-01-12 20:43:42 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43221749/article/details/128666118

版权

多模态推荐专栏收录该内容

6 篇文章 0 订阅

订阅专栏

“Attention-based Multimodal Feature Representation Model for Micro-video Recommendation” 基于注意力的多模态特征表征模型用于微视频推荐

Abtract

在这方面，本文采用了一种自我关注的机制来挖掘特征之间的内部关联性以及它们的相对重要性。
Introduction

例如，Zhang等人[1]利用微视频的文本、音频和视觉模态特征来解决多媒体场景分类问题。

Wei等人[4]使用神经多模态合作学习（NMCL）来解决微视频场景分类的问题。
本文提出了一种基于注意力的多模态特征融合方法，通过注意力机制为视频的各个模态分配不同的权重。为了保证学习到的各模态的权重能够反映用户的偏好，该方法将用户特征纳入注意力网络，实现视频各模态特征的个性化融合，从而提供更加个性化的视频推荐。

针对主要的微视频分类任务，通过建立相似性损失和差异性损失，探索微视频中不同模态的相似性和同一模态的差异性，得到视频中不同模态的私域特征和公域特征，并将其融合为全局特征，分类损失用于指导微视频的分类。

Related Work

矩阵因子化模型（MF）[23]是基于模型的CF算法之一。MF的核心思想是通过隐性特征将用户兴趣和项目特征联系起来，将用户-项目矩阵分解为两个矩阵的乘积，即用户兴趣矩阵和项目属性矩阵。

为了探索特征的交叉关系，Rendle[26]提出了因式分解机（Factorization Machines，FM），它可以自动将特征一分为二，从而挖掘特征间的隐含信息，提高模型的推荐性能。

早期的视频特征提取方法使用二维卷积网络来学习视频中每一帧的特征，这是受图像处理的启发。
Methodology

本文提出的特征表示模型有以下主要结构：输入层、嵌入层、MHSA层、AC层和输出层。

嵌入层：在嵌入层中，离散和稀疏的特征被嵌入，嵌入矩阵被用来降低维度，学习具有更多泛化的原始特征表示。

MASH层：其中，MHSA（Multi-Head-Self-Attention）层是一个基于多头自我关注的特征内部表示模块，它通过多头自我关注机制学习特征之间的内部关联性

AC层：多头方法 AC（Attention-Crossing）层是一个基于注意力的特征外部交叉表征模块，它通过多头自我注意机制来学习隐性特征描述，并通过注意力来学习特征交叉的重要性。

MHSA层和AC层得到的特征交叉表示进行加权求和，然后通过sigmoid函数得到输出结果。最终的输出结果表示为：
在这里插入图片描述

在这里插入图片描述

特征提取

为了提取微视频的视音频模态的时域信息，本文采用三维卷积网络，分别获得视音频模态的私域特征和视音频模态的公域特征。
特征嵌入

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Attention-based Multimodal Feature Representation Model for Micro-video Recommendation

Attention-based Multimodal Feature Representation Model for Micro-video Recommendation
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。