LAViTeR:Learning Aligned Visual and Textual Representations Assisted by Image and Caption Generation

最新推荐文章于 2024-07-12 16:21:48 发布

李加贝_

最新推荐文章于 2024-07-12 16:21:48 发布

阅读量132

点赞数

分类专栏：视觉文本对齐文章标签：深度学习机器学习自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38990652/article/details/120331587

版权

视觉文本对齐专栏收录该内容

5 篇文章 0 订阅

订阅专栏

这篇论文的task主要是视觉文本对齐，作者首先分别在全局和局部的角度上进行跨模态匹配，然后提出使用图像和字幕的生成任务来进一步辅助视觉文本对齐

Main goal: 学习联合多模态嵌入

text-toimage module (TIM) and image-to-text module (ITM).

VTA: Visual Text Alignment

该部分，作者分别从局部和全局的角度来计算图像文本的匹配分数

Image: 局部特征r，全局特征v

Text：word level w，sentence level s

通过word-level 注意力机制实现单词区域对齐

c为一个上下文向量

计算c和w的余弦相似度，并且计算image to text的matching score S

r2是用来放大相关度的

计算一个batch内的图像Ii对于文本Ti匹配的后验概率

L是图像区域与文本单词匹配的损失

为了保持对称性，作者也计算了文本到图像的

此外，作者使用全局特征来计算相似度，

类似于公式（5）和（6），作者计算了一个sentence level 的matching score

TIM: Text to Image Module

使用Conditional Generative Aderversarial Networks，使用一组串联的GANs，将sentence vector作为conditional input

Generative loss

Train discriminators

该公式中，第一项和和第二项分别是无条件和有条件的损失

TIM的最终loss，其中第二项只使用第K个生成器的输出计算assisted losses

ITM: Image to Text Module

使用基于transformer的image captioning model C

使用一个堆叠的transformer layers的 encoder Ce和deocder Cd

首先使用transformer encoder的自注意力机制对regional visual features进行精炼

之后进一步使用cross-attention mechanism用于image-to-text生成

decoder的输出输入到MLP中来预测在p位置上的单词概率

使用交叉熵损失函数来训练ITM

Assisting losse

最终的多模态loss

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
LAViTeR:Learning Aligned Visual and Textual Representations Assisted by Image and Caption Generation

这篇论文的task主要是视觉文本对齐，作者首先分别在全局和局部的角度上进行跨模态匹配，然后提出使用图像和字幕的生成任务来进一步辅助视觉文本对齐Main goal: 学习联合多模态嵌入text-toimage module (TIM) and image-to-text module (ITM).VTA: Visual Text Alignment该部分，作者分别从局部和全局的角度来计算图像文本的匹配分数Image: 局部特征r，全局特征vText：wor...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。