论文阅读--Semantic Grouping Network for Video Captioning

最新推荐文章于 2022-06-09 14:05:32 发布

卡伊德

最新推荐文章于 2022-06-09 14:05:32 发布

阅读量1.1k

点赞数 3

分类专栏：论文人工智能文章标签：深度学习人工智能计算机视觉论文

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chenzhiwen1998/article/details/122201795

版权

人工智能同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

Semantic Grouping Network for Video Captioning

abstract

提出了Semantic Grouping Network(SGN)网络：

用部分已经解码的字幕中，选择可可以区分的单词短语对视频帧进行分组，也就是将表达不同意思的帧分组（与聚类相似）；
对语义对齐的组进行解码，以预测下一个单词；（根据前面的已经生成的、分好组的词预测下一个）

以前：丢弃或者合并重复视频信息

SGN：检索最有鉴别能力的单词短语，然后将这些词与视频帧关联。这样可以让语义差不多的帧聚类在一起。

贡献：

新方法：先分组视频帧，再生成描述
新损失：对比注意力损失，可以在不需要人工标注的情况下，实现单词短语和视频帧之间的准确校准。

在这里插入图片描述

Introduction

语义群（组）条件：

语义组的意思应该是具体的、可观察的，不能是is、the之类的；
语义是可区分的；
语义和视频帧之间对应；

贡献：

提出了一种语义分组网络，并提出了新方法（根据分好组、已经生成的词预测下一个）
提出对比注意力损失（CA loss）
在常用数据集超过了当前最好的模型。

Semantic Grouping Network

在这里插入图片描述

结构：Visual Encoder、Phrase Encoder、Semantic Grouping、Decoder、Contrastive Attention (CA) loss

Visual Encoder 视频嵌入

获取视频并为每个视频帧生成帧表示。

Phrase Encoder 处理单词为短语

接受部分已解码的标题，并生成由标题中的一组单词组成的短语（组合单词生成短语）

Semantic Grouping 分组（视频帧+筛选后短语）

过滤出相似的短语，并通过围绕前面处理后的短语与视频帧之间对应，构建语义组（处理前面Phrase Encoder生成的短语）

Decoder 根据分组预测下一个词

解码器利用语义组来预测部分解码的标题的下一个单词

数据集

MSR-VTT
MSVD

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
论文阅读--Semantic Grouping Network for Video Captioning

Semantic Grouping Network for Video Captioningabstract提出了Semantic Grouping Network(SGN)网络：用部分已经解码的字幕中，选择可可以区分的单词短语对视频帧进行分组，也就是将表达不同意思的帧分组（与聚类相似）；对语义对齐的组进行解码，以预测下一个单词；（根据前面的已经生成的、分好组的词预测下一个）以前：丢弃或者合并重复视频信息SGN：检索最有鉴别能力的单词短语，然后将这些词与视频帧关联。这样可以让语义差不多的帧
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。