CVPR 2023: Cross-Domain Image Captioning with Discriminative Finetuning

结构化文摘

于 2024-01-22 18:27:47 发布

阅读量122

点赞数

分类专栏：一分钟看懂人工智能顶会论文CVPR 文章标签：人工智能深度学习计算机视觉

本文链接：https://blog.csdn.net/bookmashup/article/details/135755068

版权

61 篇文章 9 订阅 ¥99.90 ¥299.90

订阅专栏

本文探讨了使用判别性微调目标来改善跨域图像字幕的效果，通过预训练的编码器-解码器模型，针对不同领域进行适应，生成独特且信息丰富的字幕。同时，文章指出未来可能结合人机交互以提升模型性能。

摘要由CSDN通过智能技术生成

基于MECE原则，我们可以使用以下 6 个图像字幕研究分类标准：

1. 模型架构

编码器-解码器模型：这些传统的序列到序列模型使用单独的神经网络来处理图像和生成字幕。编码器，通常是卷积神经网络（CNN），从图像中提取视觉特征。解码器，通常是循环神经网络（RNN）如 LSTM，然后逐字生成字幕，条件是编码后的图像特征。这是早期作品如 Show and Tell [44] 和 VGG+LSTM [12] 采用的基本架构。
注意力机制模型：这些模型将注意力机制添加到编码器-解码器框架中。注意力机制允许解码器关注图像中与当前生成的单词相关的特定部分。这可以导致更准确和详细的字幕，尤其是对于复杂场景。示例包括 Show, Attend and Tell [46] 和 Bottom-up and Top-down Attention [3]。
Transformer 模型：这些模型完全用 Transformer 架构替换 RNN 解码器。Transformer 架构是一种强大的注意力机制，最初是为机器翻译开发的。Transformer 可以捕捉图像中的长距离依赖关系，生成流畅和语法正确的字幕。An Image is Wor

了解本专栏

关注