一维时序数据_结合动作边界信息与级联网络的时序动作分割方法--BCN (ECCV'20)...

本文提出BCN,一种针对时序动作分割任务的解决方案,解决了动作边界分类不准和过分割问题。通过自适应级联网络提升难样本分类精度,使用局部屏障池化减少过分割,显著提高F1-score和Edit-score。
摘要由CSDN通过智能技术生成

今天介绍一篇我们NJU-MCG在时序动作分割领域的工作 Boundary-Aware Cascade Networks for Temporal Action Segmentation (BCN),发表于ECCV 2020。本文针对时序动作分割任务中现存的两个主要问题进行了改进:(1) 具有歧义的困难帧分类效果差(尤其是动作边界附近精度较低);(2) 现存方法普遍存在过分割(over-segmentation)问题,从而大幅提升了效果。针对这两个问题,我们分别使用 (1) 区分难易样本的自适应级联网络(Stage Casacde)使得难样本的分类精度(Accuracy)大幅提高;和 (2) 结合动作边界信息的时序正则化方法(Local Barrier Pooling)在显式地减少了过分割的情况的同时不降低分类精度,从而显著提高了F1-score 和 Edit-score。我们将这两种效果互补的方法统一在一个整体框架中,可以通用地改进任何多阶段[1](Multi-Stage)的时序动作分割方法的效果。

论文链接:

http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123700035.pdf​www.ecva.net

代码链接(ECCV online video ppt也在此链接中):

https://github.com/MCG-NJU/BCN​github.com

ECCV Poster Session: Thursday, 27 August - UTC+8 (北京时间) 07:00 - 09:00, 13:00 - 15:00. 欢迎来zoom房间与一作聊天。

1. 任务介绍

简单介绍一下什么是时序动作分割任务:属于视频领域的任务,视频领域常见的任务有动作识别、时序动作检测与分割、时空动作检测、以及一些多模态任务等等。 动作识别 (Action Recognition) : 对每个输入视频进行分类,识别出视频中人物做出的动作。即输入一个视频,得到视频对应的类别。方法主要是Two-Stream和3D Conv两个流派,近期I3D,SlowFast等网络成为主流,常常作为后续任务的特征提取器。 时序动作检测 (Temporal Action Detection/Localization) :输入一个未经裁剪的长视频 (untrimmed video),即视频中既包括有动作的前景区间,也包括没有明确语义的背景区间。任务需要检测(或定位,此任务中这两个词等价)出动作开始和结束的区间,并判断区间内动作的类别。即输入未经裁剪的视频序列,得到动作出现的区间和对应的类别。常用数据集为THUMOS14与ActivityNet。 时序动作分割 (Temporal Action Segmentation) :输入一个未经裁剪的长视频 (untrimmed video),相比于时序动作检测来说往往是一些连续动作的场景,例如instructional video。任务需要对每一个视频帧进行分类,类比到语义分割中即为对每一个像素进行分类,但是由于一维区间的特点,计算时序IOU(tIOU)时遇到小段孤立的错误结果会非常敏感。由于同一个视频帧不能具有两个标签,

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值