论文浅尝 - EMNLP2020 | 跨媒体关键词预测: 多模态多头注意力和图像文本的统一框架...

论文探讨了社交媒体上跨媒体关键词预测,提出M3H-Att注意力机制,结合文本、图像和OCR信息,形成统一框架。实验显示模型在Twitter数据集上优于传统单模态模型。
摘要由CSDN通过智能技术生成

论文笔记整理:柏超宇,东南大学硕士。


文章链接:https://arxiv.org/pdf/2011.01565.pdf

来源:EMNLP 2020

动机

社交媒体每天都会产生大量的内容。为了帮助用户快速捕捉所需内容,关键词预测受到越来越多的关注。尽管如此,之前的工作大多集中在文本建模上,很大程度上忽略了图像中蕴含的丰富信息。随着单模态模型的发展成熟,研究人员把关注热点聚焦在了多模态模型上,希望通过结合文本和视觉信息,帮助模型去更好的完成对应任务。

简介

在这项工作中,作者探索了文本和图像在预测多媒体帖子的关键词中的作用。为了更好地调整社交媒体风格的文本和图像,作者提出了:(1)一种新颖的多模态多头注意力(M3H-Att),以捕捉复杂的跨媒体交互;(2)image wordings,以光学字符和图像属性的形式,连接两种模态。此外,我们设计了一个新颖的统一框架,以利用关键词分类和生成的输出,并将它们的优点结合起来。在实验部分,作者从Twitter收集了一个大规模数据集

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值