[深度学习论文笔记]Temporal Localization of Fine-Grained Actions in Videos by Domain Transfer from Web Images

最新推荐文章于 2023-11-02 10:27:33 发布

KFXW

最新推荐文章于 2023-11-02 10:27:33 发布

阅读量646

点赞数 1

分类专栏：深度学习论文笔记文章标签：视频分析深度学习视频行为检测卷积神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010158659/article/details/85716229

版权

深度学习论文笔记专栏收录该内容

25 篇文章 3 订阅

订阅专栏

[ACM MM 15] Temporal Localization of Fine-Grained Actions in Videos by Domain Transfer from Web Images

Chen Sun, Sanketh Shettyy, Rahul Sukthankary and Ram Nevatia
from USC & Google

Motivation

这篇文章的主要目标是研究如何使用大量从搜索引擎得到的图片，定位视频中细粒度的动作在时间轴上的位置。

网络图片是通过在搜索引擎中搜索某些特定动作的名字得到的（如篮球比赛中的扣篮等）。作者将视频和搜索得到的图片视为两个不同的域。其中视频可以视作一些列的帧，这些帧包括了设计动作的部分，也包括了不涉及动作的无关帧。找出包含动作的帧就是实现了动作定位任务。网络图片可以认为他们的内容包含的搜索的动作，但是很多图片和视频帧的类型差别过大。如有些图片的拍摄视角和视频差别很大，有些图片是漫画而不是现实拍摄的素材。如图1所示。因此如何有效利用这些网络图片是关键。

Method

作者主要使用不同域之间的迁移来不断过滤两个域中无用的数据。具体方法流程如下：

首先在每一个域（视频帧和网络图片）上训练单独的动作分类器，之后在另一个域上做分类预测；
过滤正确类别的分类概率较低的图片。这样可以净化两个域里面的图片：视频域里和动作无关的图片被过滤，网络图片中和视频差别很大的图片被过滤；
重复1,2中的步骤，直至稳定。

此时，视频中的每一帧都可以得到一个被过滤掉的置信度。基本上没有被过滤掉的帧被称为动作定位帧（localized action frames, LAF）。在此之后，作者进一步利用了LAF，即在原视频上训练CNN-LSTM进行视频分类。监督信息是整个视频的动作类别标注。步骤2中产生的概率作为每一帧损失函数的权重。被认定为是非动作的帧一定程度上被排除到训练样本之外。训练完成后，CNN-LSTM模型可以对视频进行动作分类。

最后为了定位动作，作者使用CNN-LSTM模型输出每一帧的分类概率，然后用时域上的滑动窗口扫，窗口内概率超过阈值的框即视作包含了一个动作。重叠在一起的滑动窗口使用非极大值抑制（NMS）过滤。

Experiment

在CNN-LSTM模型中，作者使用AlexNet作为CNN主干。在THUMOS2014数据集上，该模型的动作定位性能为：
在这里插入图片描述

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。