OadTR

研究背景:        

        当前的主流方法大部分都基于RNN(Recurrent Neural Network)来对时间依赖性进行建模,并取得了令人印象深刻的效果, 如Temporal recurrent networks (TRN) 和Information Discrimination Network (IDN) 等。然而,这种RNN-like的架构存在非并行性和梯度消失的问题。

        Transformers具有强大的自注意模块,具有长程时序建模的能力,同时在自然语言处理领域和各种视觉任务中都取得了显著的成绩。并且已有的工作已经证明,Transformers具有比RNN架构更好的收敛性,并且Transformers也具有更高计算效率

研究内容:

        在文中我们提出了一种新的基于transformer的编码器解码器框架(OadTR),编码器能够捕获历史观察信息中关系以及进行全局交互,解码器通过聚和未来的片段表现来提取辅助信息,因此OadTR能够通过对历史信息编码以及对未来的上下文进行预测来识别现在的行为。我们在HDD,TVSeies,THUMOS14上评估了我们的数据集显示出我们的模型具有很高的训练和推理速度。

研究方法:

        我们通过对在线行为检测任务引入transformer,该方法是一个能够通过同时学习历史关系和未来信息来对当前的行为进行分类的编码器解码器结构。

        第一步是通过标准CNN从给出的视频中提取片段级别的特征序列,然后将task token嵌入到特征序列中,并将其输入到编码器模块中,然后这个task token 的输出能够从历史观察中对全局的时序关系进行编码,解码器用于预测接下来可能发生的行为最后我们将task token的输出和解码器连接起来,用于检测在线行为。

算法流程:

编码器:

        先对视频流进行特征提取并坍塌空间维度到一维的特征序列并接一个全连接层将特征映射到D维得到token序列,在编码器中,对这些token序列,我们扩展到一个可学习的tokenclass,并得到组合的{token,tokenclass}特征序列,tokenclass是用于学习和在线行为检测任务相关的全局的判别性特征,对于没有tokenclass的行为更加偏向于某一帧(第一帧的类别),但是tokenclass会通过自适应的交互来获取最合适的行为类别。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值