视觉描述与生成（视频描述）

普朗克.

于 2023-08-18 17:04:56 发布

阅读量455

点赞数

文章标签：机器学习视频编解码

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_51483032/article/details/132365634

版权

视觉描述与生成（视频描述）

一、概念：

1、图像视频<————>自然语言之间相互转化与生成

2、一方面使计算机自动生成视觉内容的自然语言描述，另一方面让计算机能根据人类自然语言描述自动生成图像和视频

二、多媒体内容理解面临的挑战：

跨媒体推理

小样本训练与学习

无监督条件下的多媒体内容理解

跨媒体知识图谱

跨媒体数据相互生成

视觉知识嵌入与推理

多媒体内容理解的实际应用

三、早期图像视频的文本描述生成方法主要包括：基于模板的方法、基于检索的方法

1、基于模板的方法首先检测图像视频中的对象、属性、概念以及对象关系等内容，然后利用预定义的语言模板，将检测到的视觉内容和语句的组成部分（例如ｓｕｂｊｅｃｔ，ｖｅｒｂ和ｏｂｊｅｃｔ）进行 对齐，以此生成文本描述．

例子1：Ｋｕｌｋａｒｎｉ等人首先检测图像中的 对象，并预测 对象的属性和对象间的介词关系，然后构建 ＣＲＦ模型预测三元组形式的标签信息，最后根据语言模板生成语句．

例子2：Ｙａｎｇ等人将语句的核心结构表示为“**名词－动词－场景－介词”**四元组的形式，并利用ＨＭＭ（ｈｉｄｄｅｎＭａｒｋｏｖｍｏｄｅｌ）模型选择最合适的四元组来生成语句．这个方法还结合基于大规模语料训练的语言模型来提高名词、动词、场景和介词的预测准确率．

缺点：基于模板的方法依赖对象、属性等检测的质量，而且其语句生成过程依赖预定义的语言模板，导致生成的语句结构比较单一，多样性受限．

2、基于检索的方法采用信息 检索的模式 来“生成”语句，即从人工构建的语句集合中检索出与图像语义相似的语句，并根据检索得到的语句生成最终的语句描述．

缺点：虽然这类方法能够得到与人工描述密切相符的语句，但是所得到的语句受限于人工构建的语句集合，并且语句集合不易扩展．

四、近年来研究方法

近年来，基于ＲＮＮ的序列学习模型在机器翻译领域取得了极大的进展．受此启发，研究人员将图像视频的文本描述生成看成是一个“翻译”过程，构建编码器－解码器（ｅｎｃｏｄｅｒ－ｄｅｃｏｄｅｒ）模型，首先将图像视频的视觉内容编码成特征向量，然后利用ＲＮＮ模型将特征向量解码为文本描述．这类方法通过对视觉内容和文本序列进行联合建模，直接从视觉内容中生成文本描述，不依赖具体的语言模板，因而能够生成语法结构灵活、更加符合人类语言表达习惯的语句．目前这类方法已经成为图像视频的文本描述生成任务的主流方法．

编码器通常由ＣＮＮ构成

对于视频而言，除了常规的２ＤＣＮＮ网络以外，Ｃ３Ｄ等３ＤＣＮＮ以及ＲＮＮ也通常用于编码视频的时序信息．

解码器通常由ＲＮＮ构成，ＬＳＴＭ等是常用的解码器模型．

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

普朗克. 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。