论文浏览(8) Asynchronous Interaction Aggregation for Action Detection


0. 前言

  • 相关资料:
    • arxiv
    • github:有webcam demo可以直接使用,但暂时没有提供training代码。
    • 论文解读
  • 论文基本信息
    • 领域:行为时空检测
    • 作者单位:上海交大
    • 发表时间:2020.4

1. 要解决什么问题

  • 用于解决时空行为检测(spatial-temporal action detection)问题,该类问题是行为识别的升级版,感觉是在检测+跟踪的基础上进行行为识别。
  • 现在在行为识别,或者说在时空行为检测领域又多了一类研究,主要是研究人与人、人与物之间的相关关系(interaction)。这类研究其实还比较少,所以也存在比较多问题:
    • 之前的研究主要着重研究某一类相互作用(如人与物之间的相互关系)
    • long-term temporal interaction很难寻找。通过3D卷积很难做到这一点,也有方法要保存长期的特征信息,但这非常消耗资源。
    • 之前的方法中,为了检测行为时只用了 cropped features,其他信息都去掉了。

2. 用了什么方法

  • 本文将Interaction分为三类
    • Person-Person Interaction:人与人之间的相互关系,如听。
    • Person-Object Interaction:人与物之间的相互关系,如拿着物品。
    • Temporal Interaction:有较大时间相关性的事件,如开、关门。
  • 提出了一个Asynchronous Interaction Aggregation network(AIA)
    • 我也不知道该怎么翻译。
    • 从创新点看,标题这几个关键字涵盖了本文的两个主要工作。
      • Interaction Aggregation structure(IA)
      • Asynchronous Memory Update algorithm(AMU)
  • 本架构的主要结构如下:
    • 我还没有仔细看源码,所以下面的理解很有可能有问题。这里就是介绍了总体工作流程。
    • a. Feature Extractor
      • 有一个独立于AIA的Detector,用于检测人和物体,即图中红色的 Detector。通过该Detector,将原始数据中的人和物体都标定出来。
      • 通过 Video Model 提取视频数据的特征,看源码应该是通过 slowfast 提取的。
      • Detector 提取的人/物的 bbox 在 Video Model 得到的特征图上做ROI操作,得到每个人/物的特征。
    • b. Interaction Aggregation
      • 该模块主要就是通过 IA structure 融合各类intaraction的信息。
      • IA structure 输入共三类:当前图像中人的特征、当前图像中物的特征、Feature Pool(即历史图像中)中人的特征。
      • IA structure 的输出就是更新后的人特征。
        • 此时的特征融合了周围其他人的特征、历史特征、物体特征。
        • 通过融合后的特征进行简单的分类,判断人的行为。
    • c. Asynchronous Memory Update
      • 改模块的主要作用就是按照一定的方法保存历史数据,从而实现 long-term 的行为识别。
      • 主要解决的问题是:随着时间增加,特征尽量不丢失,且总体积不增加。
    • image_1ebnp6i7i1jpp1qdq1iar1rek19na9.png-238.1kB
  • Instance Level and Temporal Memory Features
    • Instance Level Features:按照我的理解就是,对每个instance(独立的人或物体)的特征,即上面总体架构中,通过检测分别提取了人和物体的特征,即 P t , O t P_t, O_t Pt,Ot
    • Temporal Mmoery features:按我的理解就是,当前帧周围的其他帧的人的特征,,即 M t = [ P t − L , . . . , P t , . . . , P t L ] M_t = [P_{t-L}, ..., P_t, ..., P_{t_L}] Mt=[PtL,...,Pt,...,PtL]
  • Interaction Modeling and Aggregation
    • 主要介绍的就是IA相关的功能,主要包括两个方面,interaction block怎么设计,interaction block如何融合(即interaction aggragation structure)。
    • Interaction Block
      • 结构主要借鉴了 Transformer Block,有两个输入,分别是 query 和 key/value。
      • P-Block:对同一个clip中人与人的相互行为进行建模,两个输入是相同的,都是 P t P_t Pt
      • O-Block:检测人与物之间的相互关系,key/value输入是 O t O_t Ot,另一个输入应该是P-Block的输出。
      • M-Block:有strong logical connections along the temporal dimension的事件,如开/关。
      • 下图就是一个O-Block,该模块的基本作用就是 select value features that are highly activated to the query features and merge them to enhance the query features,大概意思就是注意力模型的基本思想,利用 Q t Q_t Qt来选择 O t O_t Ot中的重点信息。
      • image_1ebnro2291n0i1oae19js1tdhr29m.png-53.5kB
    • Interaction Aggregation Structure
      • 融合interaction block的信息,主要有三种方式:naive parallel IA,serial IA,dense serial IA。
      • image_1ebnsrc8j10lqugt1k6q1gdh7vh13.png-54.7kB
      • image_1ebnsrm371qttmoo1t9acs91nig1g.png-16.5kB
  • Asynchronous Memory Update Algorithm
    • 主要就用就是保存 long-term memory features(即前文中提到的 M t M_t Mt),从而实现一些行为识别。
    • 一个主要挑战:随着视频长度增加,数据会不会越来越多,导致占用更多的内存以及计算资源。
    • 期望实现方式:特征会随着时间动态的更新。
    • 为了实现上面提到的功能,需要一种异步的特征更新方法,即 asynchronous memory update。该方法主要包括了一个存储单元(memory pool Ω \Omega Ω)以及两个基本操作 READ、WRITE。
    • image_1ebntiapc1tddfpe1vaq1k3qv4c1t.png-148.2kB

3. 效果如何

  • 在AVA数据集上达到SOTA。给的结果表是跟SlowFast比的(应该现在有更好的对比对象了吧)
    • image_1ebnu32bk1930eem12pdapv1tar2a.png-143.9kB
  • 在UCF101-24和EPIC-Kitchens上做了验证
    • image_1ebnu5hiq1054d9sqpc8sd1sgi2n.png-93.8kB

4. 还存在什么问题

  • 开源代码里有webcam版本的,具体实现还是得看看有啥不一样。

    • webcam版的demo使用了MOT模型,不知道用在了什么地方,后续需要仔细看下。
  • 训练代码没开源,要复现也不是不可能,但就算代码写出来了,手上没有足够的卡……难过……

  • 作为菜鸡,一直在等待有没有那种不用独立Detector就能做时空行为检测的framework出现……

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
异步FIFO设计中的仿真和综合技术通常用于验证和优化设计的性能和功能。 仿真技术是通过使用专门的仿真工具来模拟异步FIFO设计的行为和交互。通过创建整个设计的仿真环境,并将所需的输入信号和时钟周期应用于设计,可以通过观察输出来验证设计的正确性。仿真技术可以检测潜在的时序问题、死锁和数据丢失等设计错误。通过在仿真中模拟不同的工作负载和数据流,可以评估异步FIFO设计的性能和吞吐量。这个过程可以帮助工程师理解设计缺陷并进行改进。 综合技术是将高级描述(如HDL代码)转换为可在特定目标技术上实现的底层门级表示的过程。在异步FIFO设计中,综合器将HDL代码转换为逻辑门级网表,其中包含器件(如D触发器和多路选择器)的具体实现。综合的目标是优化设计的性能、资源使用和功耗,同时满足设计约束。综合技术可以根据设计目标进行优化,例如最小面积、最高性能或最低功耗。通过使用综合技术,工程师可以获得设计的底层物理实现,以评估其性能和功耗,并进行必要的优化。 综合和仿真技术是异步FIFO设计过程中不可或缺的部分,可以帮助工程师验证和优化设计的功能、性能和功耗。它们在设计流程中起到重要的作用,并且通常与其他验证技术(如形式验证和工时验证)结合使用,以确保设计的正确性和可靠性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值