视觉描述与生成(视频描述)

视觉描述与生成(视频描述)

一、概念:

1、图像视频<————>自然语言之间 相互转化与生成

2、一方面使计算机 自动生成视觉内容的自然语言描述,另一方面让计算机能根据人类自然语言描述自动生成图像和视频

二、多媒体内容理解面临的挑战:

跨媒体推理

小样本训练与学习

无监督条件下的多媒体内容理解

跨 媒 体知识图谱

跨媒体数据相互生成

视觉知识嵌入与推理

多媒体内容理解的实际应用

三、早期图像视频的文本描述生成方法主要包括:基 于模板的方法、基于检索的方法

​ 1、基于模板的方法首先检测图像视频中的对象、属性、概念以及对象关系等内容,然后利用预定义的语言模板,将检测到的视觉内容语句的组成部分(例 如subject,verb和 object)进行 对 齐,以此生成文本描述.

​ 例子1:Kulkarni等 人首先检测 图 像 中 的 对 象,并 预 测 对 象 的 属 性 和对象间的介词关系,然后构建 CRF模型预测三元 组形式的标 签 信 息,最 后 根 据 语 言 模 板 生 成 语 句.

​ 例子2:Yang等人将语句的核心结构表示为“**名词-动词- 场景-介 词”**四 元 组 的 形 式,并 利 用 HMM(hidden Markovmodel)模型选择最合适的四元组来生成语 句.这个方法还结合基于大规模语料训练的语言模 型来提高名词、动词、场景和介词的预测准确率

​ 缺点:基于模板的方法依赖对象、属性等检测的质量,而且其语句生成过程依赖预定义的语言模板,导致生成的语句结构 比 较 单 一,多样性受 限.

​ 2、基 于 检 索 的 方 法采用信 息 检 索 的 模 式 来“生 成”语 句,即 从人工构建的语句集合中检索出与图像语义相似的语 句,并根据检索得到的语句生成最终的语句描述

​ 缺点:虽 然这类方法能够得到与人工描述密切相符的语句, 但是所得到的语句受限于人工构建的语句集合,并 且语句集合不易扩展.

四、近年来研究方法

​ 近年来,基 于 RNN 的 序 列 学 习 模 型 在 机 器 翻 译领域取得了极大的进展.受此启发,研究人员将图 像视频的文本描述生成看成是一个“翻译”过程,构建编码器-解码器(encoder-decoder)模型,首先将图 像视频的视觉内容编码成特征向量,然后利用 RNN 模型将特征向量解码为文本描述.这类方法通过对 视觉内容和文本序列进行联合建模,直接从视觉内 容中生成文本描述,不依赖具体的语言模板,因而能够生成语法结构灵活、更加符合人类语言表达习惯 的语句.目前这类方法已经成为图像视频的文本描述生成任务的主流方法.

编码器通常由 CNN 构成

对于视频而言,除了常规的 2DCNN 网络以外,C3D 等3DCNN 以及 RNN 也 通常用于编码视频的时序信息.

解码器通常由 RNN 构成,LSTM 等是常用的解码器模型.

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

普朗克.

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值