浅谈 image caption 相关知识点及优秀链接

最新推荐文章于 2024-05-31 09:52:08 发布

lee__7

最新推荐文章于 2024-05-31 09:52:08 发布

阅读量3.3k

点赞数 11

本文链接：https://blog.csdn.net/lee__7/article/details/104862386

版权

本文深入探讨了图像标题生成（image caption）技术，包括encoder-decoder框架、Seq2Seq模型及其优化，特别是Attention机制的应用。文章还介绍了相关的优秀论文、代码复现资源，并讨论了基于深度学习的优化方法，如改进的attention机制和强化学习策略。同时，涵盖了数据集、图像处理方法和文字生成方法的基础知识。

摘要由CSDN通过智能技术生成

框架

encoder-decoder

中间向量长度是固定的（缺陷）
( 语义向量无法完全表示整个序列的信息，先输入的内容携带的信息会被后输入的信息稀释掉 )
输入信息太长，会丢失信息（缺陷）

Seq2Seq

输入输出序列长度可变
- 输入输出固定长度，长度稍微变化，补零

encoder-decoder & Seq2Seq

Seq2Seq 属于 Encoder-Decoder 的大范畴
Seq2Seq 更强调目的，Encoder-Decoder 更强调方法

Attention

解决信息过长，信息丢失
Encoder 不将输入序列编码为固定长度的中间向量C，
编码成向量序列

生成顺序：

解决输入输出是固定长度，长度有变化，补零： Seq2Seq
解决中间向量固定：Attention

在这里插入图片描述

优化

SGD（minibatch stochastic gradient descent）：负责采样
Adadelta：负责优化下降方向

改进

attention机制
visual sentinel 哨兵机制
CNN改进
强化学习训练模型
目标检测

在这里插入图片描述

在这里插入图片描述
图片出自：Image2Caption

优秀论文解析链接

Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning --------文章 1（内含代码链接） ------- 文章 2

代码复现 - 单文

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering
Show, Attend and Tell: Neural Image Caption Generation with Visual Attention
Show, Control and Tell: A Framework for Generating Controllable and Grounded Captions. - 官方代码

代码复现 - 合集

Image Captioning代码复现 - 小合集！
CVPR2019-Code

最低0.47元/天解锁文章

lee__7

关注

11
点赞
踩
73

收藏

觉得还不错? 一键收藏
2
评论
浅谈 image caption 相关知识点及优秀链接

框架encoder-decoder中间向量长度是固定的（缺陷）输入信息太长，会丢失信息（缺陷）Seq2Seq输入输出序列长度可变输入输出固定长度，长度稍微变化，补零encoder-decoder & Seq2SeqSeq2Seq 属于 Encoder-Decoder 的大范畴Seq2Seq 更强调目的，Encoder-Decoder 更强调方法...
复制链接

扫一扫