image inpaint 深度学习_基于深度学习的image/video caption的研究

最新推荐文章于 2024-03-21 09:34:48 发布

rain john

最新推荐文章于 2024-03-21 09:34:48 发布

阅读量314

点赞数

文章标签： image inpaint 深度学习

本文链接：https://blog.csdn.net/weixin_35215045/article/details/113626764

版权

本文作者：北京理工大学博士生。

Image caption和video caption可以看做是一种机器翻译的形式，它将图像和视频数据看做是一种语言，通过机器翻译生成另一种语言的文本信息。Image caption即图像信息到文本信息的机器翻译，从图像中提取出特征，再将其特征作为输入以生成文字语义。Video caption是image caption的升级版，它为每个视频及其对应的时序信息生成视频的文本描述。该过程不仅要考虑视频的时序信息，还要合理地整合每个视频的视觉内容所产生的文本信息，因此难度要远远高于image caption。以下是对基于深度学习的image caption和video caption现有方法的简要介绍，并简单介绍了其中广泛使用的方法，进一步分析和总结。

Image caption主要分为四种基于深度学习的研究方法，分别是Encoder-Decoder、引入注意力机制、GAN和强化学习等方法。目前基于深度学习的image caption领域的方法主要是Encoder-Decoder方法。文献 [1]利用Faster-RCNN检测得到的目标特征、目标属性和目标之间的关系以生成场景图，并使用字典学习最终的特征表示以生成更丰富的image caption。Show, Attend and Tell [2]在Encoder-Decoder的基础上，引入了attention机制，该方法考虑了目标之间的关系，是一个极具代表性的开山之作。因此，本文对此方法进行了详细介绍和分析。如图1所示。

图1 Neural Image Caption Generation with Visual Attention.

在图1中可以看出，该结构实质上是Encoder-Decoder结构。首先在encoder 部分使用卷积神经网络提取图像特征，随后Decoder部分引入attention机制以加强有效特征的提取，并赋予更大的权重，最终通过RNN输出最终的图像描述信息。

如图2所示，在encoder阶段中，通过CNN对输入图像$I$提取$L$个特征向量，每个向量表示图像的每个区域，即$a_1,a_2,cdots,a_L$。在Decoder阶段中，由注意力机制与对应区域的特征一起可得上下文特征$z_1,z_2,cdots,z_c$等$C$维向量，将$C$维向量输入到RNN中，组合单词的emdedding进行训练。

这里attention机制有两种机制，分别是hard attention和soft attention： 1. Hard attention：此attention机制只关注最相关的一个位置，其余全部为0，因此它是一种One-hot形式。该机制使模型只能关注当前时刻的某一块区域，并没有关注整张图像的所有区域。 2. Soft attention：soft attention机制关注所有区域的位置，而且每个区域权重不同，并且将每个区域权重与对应区域的特征进行加权和，输入到RNN中。

在整体结果和训练上，与hard attention机制相比，soft attention机制训练简单，而且更能充分表示图像与文本之间的对应关系。

图2 Encoder-Decoder with attention.

该算法虽然取得了显著的效果，但是也存在一些问题，诸如： 1. 图像上的每个空间区域使用统一的权重，导致模型无法针对性的生成文本信息，效果并不大。因此应当重点关注目标所在的区域和显著性区域，对这些区域赋予不同的权重注意力分布，使模型加强对有效区域的学习。 2. 该网络把每一个单词都对应于每个图像区域，但是却忽略了不需要相应图像区域的某些单词，例如冠词和动词。因此，可以先将图像中的目标区域先检测出来，并计算该目标与Word的关联程度，并通过结合attention机制预测出目标与目标之间的关系，便可自适应的预测出冠词、动词和介词等；或者可以降低不需要对应图像区域的单词所对应的权重。

Video caption是视频内容生成的文字描述。与image caption相比，video caption使用的不适用于平滑变化和静态的图像，它包含具有时序信息、声音信息和空间信息的视频数据，场景变化大，比静态图像包含更多的信息。因此，对于生成文字描述video caption需要提取更多的特征，难度要远于image caption。Video caption主要的研究方法同image caption，也基本分为四种。目前大多数基于encoder-decoder结构，文献 [3]引入与候选词汇有关联的所有视频信息，以辅助短视频的文本信息生成，并融合了其他视频的特征使模型能够全面学习特征。Sequence to Sequence – Video to Text [4]是相对经典且广泛使用的算法，该算法引入了光流图像特征，使模型可以更好地学习视频的时序信息特征，本文对此方法进行了简单介绍和分析。

图3 Sequence to Sequence – Video to Text.

如图3所示，该网络结构具有两层LSTM，第一层LSTM对视频图像序列的特征进行编码，第二层LSTM对特征进行解码以生成文字描述。送入LSTM 的输入特征有两种，分别是：RGB图像和光学流图像，在RGB图像中，通过卷积神经网络提取固定大小的特征；在光学流图像中，提取出光流信息并按照传统方法生成光流图。整体网络将两种视觉输入的预测结果进行加权求和，逐步完成单词的预测，最终生成视频的文本信息。

参考文献

[1] Yang, X. , Tang, K. , Zhang, H. , & Cai, J. . (2018). Auto-encoding scene graphs for image captioning.

[2] Xu, Kelvin, et al. "Show, Attend and Tell: Neural Image Caption Generation with Visual Attention." Computer Science (2015):2048-2057.

[3] Pei W , Zhang J , Wang X , et al. Memory-Attended Recurrent Network for Video Captioning[J]. 2019.

[4] Venugopalan, Subhashini, et al. "Sequence to sequence-video to text." Proceedings of the IEEE international conference on computer vision. 2015.

rain john

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫