论文阅读 -- 时序动作提名--CTAP: Complementary Temporal Action Proposal Generation

CTAP: Complementary Temporal Action Proposal Generation

1. 前言

时序动作提名生成的方法大致可以分为三类,基于滑动窗口的(SCNN-prop ,TURN),基于动作性分数判定的(TAG,BSN),将前两者的融合(CTAP,BMN,DBG)。这篇文章是第三种方法的最早的几篇论文了。
在这里插入图片描述
基于滑动窗口的方法,将视频按照不同尺度划分为一系列窗口,再对这些窗口判断是否包含动作实例,这种方法的缺点是,边界不够精确(虽然有一些方法可以调整边界),就会造成只有大量检索proposal才能达到高AR,如图1中的圆圈A所示。
基于动作性分数(actionness score),这种方法是对视频的每个位置进行分类评分(该位置在动作内的得分,或者直接二分类),再将高分数结合成proposal;该方法对分类器要求很高,如果分类出现差错救护导致忽略一些proposal,所以AR性能的上限被限制如图1的B。
融合的方法,基于动作性的proposals的边界更精确,因为它们在更精细的层次上被预测,而窗口级排名可能更有有识别力的,因为它用到更多的全局上下文信息当动作性分数的质量比较低时,actionness-based方法可能忽略一些正确的proposals;滑动窗口可以统一的覆盖视频中的所有段。 利用滑动窗口的部分来自适应的补足第二种方法的缺失,就是第三种融合的方法。

2. 方法

文章提出一个新的互补时序动作提名(CTAP)生成器包含三个模型:

  1. 初始proposal生成,输出actionness proposals和滑动窗口proposals。
  2. proposal互补滤波器,首先判断actionness方法是否可能漏掉某些proposal,并从滑动窗口proposals中收集过来,组成新的proposals。
  3. proposals排名与边界调整,设计了一个时序卷积神经网络,时序排序信息
    在这里插入图片描述
2.1 初始提名生成

这一部分先介绍视频预处理,然后是actionness方法生成proposals和滑动窗口生成proposals。

视频预处理
根据之前的方法,一个未裁剪的长视频被分割成片段,每个片段包含 n u n_u nu个连续的帧。再通过视觉编码器 E v E_v Ev提取片段级的表示 x u = E u ( u ) ∈ R d f \mathbf x_u=E_u(u)\in\Bbb{R}^{d_f} xu=Eu(u)Rdf。在这个实验中采用two-stream CNN模型作为视觉编码器。

Actionness方法生成proposals
基于上面的片段特征,训练一个分类器为每一个片段生成actionness分数。这里是采用的两层时间卷积网络,每次输入 t a t_a ta个连续的片段特征, x ∈ R t a × d f \mathbf{x}\in\Bbb{R}^{t_a \times d_f} xRta×df,并为每一个片段生成一个概率,概率表示片段是背景或者动作, p x ∈ R t a \mathbf p_x \in\Bbb{R}^{t_a} pxRta
p x = σ ( t c o n v ( x ) ) , t c o n v ( x ) = F ( φ ( F ( x ; W 1 ) ) ; W 2 ) (1) \mathbf p_x = \sigma(t_{conv}(\mathbf x)), t_{conv(\mathbf x)}=\mathcal{F}(\varphi(\mathcal{F}(\mathbf {x;W_1}));\mathbf {W_2}) \tag{1} px=σ(tconv(x))

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
CTAP (Client-to-Authenticator Protocol) 是一种用于在Web浏览器和安全密钥之间进行通信的协议,它定义了一系列的指令和响应格式。CTAP协议格式包含以下几个部分: 1. Command (指令) 字段:用于标识要执行的指令,它由一个字节的无符号整数表示。例如,指令代码为1表示执行CTAP1_GET_VERSION指令,指令代码为2表示执行CTAP1_GET_RANDOM指令。 2. Payload (有效载荷) 字段:用于传递指令所需的参数。有效载荷的长度可以是0到65535个字节,它由一个或多个CBOR对象组成。CBOR是一种二进制编码格式,可以轻松地将数据编码为紧凑且高效的二进制格式,以便在网络上传输。 3. Status (状态) 字段:用于表示设备的执行状态,它由一个字节的无符号整数表示。例如,状态代码为0表示操作成功,状态代码为1表示操作失败。 4. Error Message (错误消息) 字段:用于传递设备返回的错误消息,它由一个CBOR对象组成。如果操作失败,则该字段将包含一个错误消息,用于描述失败的原因。 下面是一个CTAP1_GET_VERSION指令的示例: ``` +----------+------------------+-----------------+-----------------+ | Command | Payload | Status | Error Message | +----------+------------------+-----------------+-----------------+ | 1 | None | 0 | None | +----------+------------------+-----------------+-----------------+ ``` 在这个示例中,指令代码为1表示执行CTAP1_GET_VERSION指令,有效载荷字段为None表示该指令不需要参数。设备成功执行该指令,并返回了状态代码0表示操作成功,错误消息字段为None表示没有错误消息。 总之,CTAP协议格式定义了一系列的指令和响应格式,它们共同构成了一种用于在Web浏览器和安全密钥之间进行通信的协议。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值