视觉描述与生成(视频描述)
一、概念:
1、图像视频<————>自然语言之间 相互转化与生成
2、一方面使计算机 自动生成视觉内容的自然语言描述,另一方面让计算机能根据人类自然语言描述自动生成图像和视频
二、多媒体内容理解面临的挑战:
跨媒体推理
小样本训练与学习
无监督条件下的多媒体内容理解
跨 媒 体知识图谱
跨媒体数据相互生成
视觉知识嵌入与推理
多媒体内容理解的实际应用
三、早期图像视频的文本描述生成方法主要包括:基 于模板的方法、基于检索的方法
1、基于模板的方法首先检测图像视频中的对象、属性、概念以及对象关系等内容,然后利用预定义的语言模板,将检测到的视觉内容和语句的组成部分(例 如subject,verb和 object)进行 对 齐,以此生成文本描述.
例子1:Kulkarni等 人首先检测 图 像 中 的 对 象,并 预 测 对 象 的 属 性 和对象间的介词关系,然后构建 CRF模型预测三元 组形式的标 签 信 息,最 后 根 据 语 言 模 板 生 成 语 句.
例子2:Yang等人将语句的核心结构表示为“**名词-动词- 场景-介 词”**四 元 组 的 形 式,并 利 用 HMM(hidden Markovmodel)模型选择最合适的四元组来生成语 句.这个方法还结合基于大规模语料训练的语言模 型来提高名词、动词、场景和介词的预测准确率.
缺点:基于模板的方法依赖对象、属性等检测的质量,而且其语句生成过程依赖预定义的语言模板,导致生成的语句结构 比 较 单 一,多样性受 限.
2、基 于 检 索 的 方 法采用信 息 检 索 的 模 式 来“生 成”语 句,即 从人工构建的语句集合中检索出与图像语义相似的语 句,并根据检索得到的语句生成最终的语句描述.
缺点:虽 然这类方法能够得到与人工描述密切相符的语句, 但是所得到的语句受限于人工构建的语句集合,并 且语句集合不易扩展.
四、近年来研究方法
近年来,基 于 RNN 的 序 列 学 习 模 型 在 机 器 翻 译领域取得了极大的进展.受此启发,研究人员将图 像视频的文本描述生成看成是一个“翻译”过程,构建编码器-解码器(encoder-decoder)模型,首先将图 像视频的视觉内容编码成特征向量,然后利用 RNN 模型将特征向量解码为文本描述.这类方法通过对 视觉内容和文本序列进行联合建模,直接从视觉内 容中生成文本描述,不依赖具体的语言模板,因而能够生成语法结构灵活、更加符合人类语言表达习惯 的语句.目前这类方法已经成为图像视频的文本描述生成任务的主流方法.
编码器通常由 CNN 构成
对于视频而言,除了常规的 2DCNN 网络以外,C3D 等3DCNN 以及 RNN 也 通常用于编码视频的时序信息.
解码器通常由 RNN 构成,LSTM 等是常用的解码器模型.