论文笔记整理:柏超宇,东南大学硕士。

文章链接:https://arxiv.org/pdf/2011.01565.pdf
来源:EMNLP 2020
动机
社交媒体每天都会产生大量的内容。为了帮助用户快速捕捉所需内容,关键词预测受到越来越多的关注。尽管如此,之前的工作大多集中在文本建模上,很大程度上忽略了图像中蕴含的丰富信息。随着单模态模型的发展成熟,研究人员把关注热点聚焦在了多模态模型上,希望通过结合文本和视觉信息,帮助模型去更好的完成对应任务。
简介
在这项工作中,作者探索了文本和图像在预测多媒体帖子的关键词中的作用。为了更好地调整社交媒体风格的文本和图像,作者提出了:(1)一种新颖的多模态多头注意力(M3H-Att),以捕捉复杂的跨媒体交互;(2)image wordings,以光学字符和图像属性的形式,连接两种模态。此外,我们设计了一个新颖的统一框架,以利用关键词分类和生成的输出,并将它们的优点结合起来。在实验部分,作者从Twitter收集了一个大规模数据集
论文探讨了社交媒体上跨媒体关键词预测,提出M3H-Att注意力机制,结合文本、图像和OCR信息,形成统一框架。实验显示模型在Twitter数据集上优于传统单模态模型。
最低0.47元/天 解锁文章
34

被折叠的 条评论
为什么被折叠?



