VisEvent: Reliable Object Tracking via Collaboration of Frame and Event Flows论文笔记

因为不是做跟踪的,大致读了下这篇文章,主要是看了是如何将事件相机和rgb相机数据做多模态融合的,为之后的工作找点灵感

 项目地址:https://sites.google.com/view/viseventtrack/

一.论文贡献

1:提出了一个包含820个可见事件视频的大规模神经形态跟踪数据集。这是第一个从真实世界收集的用于单目标跟踪的大规模可视事件基准数据集。

2.提出了一种简单而有效的基线跟踪器,通过开发一个跨模态转换模块,可以充分利用不同模态的独特信息进行鲁棒跟踪。这是首次验证跨模态变换在可视事件跟踪问题中的成功应用。

3.我们构建了多个基于双模态的跟踪器(超过35个),以便在未来的工作中比较各种跟踪管道(例如,基于相关滤波器的跟踪器、基于二进制分类的跟踪器和基于连体匹配的跟踪器)和融合策略(例如,早期、中期和后期融合)。

二.Input Representation

 因为不太了解注意力机制,所以首先从网上学习了一下什么是注意力机制(深度学习之注意力机制(Attention Mechanism)和Seq2Seq - Luv_GEM - 博客园):

键值对注意力模式

一般的,可以用键值对(key-value pair)来表示输入信息,那么N个输入信息就可以表示为(K, V)= [(k1,v1),(k2,v2),...,(kN,vN)],其中“键”用来计算注意分布σi,“值”用来计算聚合信息。

那么就可以将注意力机制看做是一种软寻址操作:把输入信息X看做是存储器中存储的内容,元素由地址Key(键)和值Value组成,当前有个Key=Query的查询,目标是取出存储器中对应的Value值,即Attention值。而在软寻址中,并非需要硬性满足Key=Query的条件来取出存储信息,而是通过计算Query与存储器内元素的地址Key的相似度来决定,从对应的元素Value中取出多少内容。每个地址Key对应的Value值都会被抽取内容出来,然后求和,这就相当于由Query与Key的相似性来计算每个Value值的权重,然后对Value值进行加权求和。加权求和得到最终的Value值,也就是Attention值。

如下图所示,以上的计算可以归纳为三个过程:

第一步:根据Query和Key计算二者的相似度。可以用上面所列出的加性模型、点积模型或余弦相似度来计算,得到注意力得分si

 

第二步:用softmax函数对注意力得分进行数值转换。一方面可以进行归一化,得到所有权重系数之和为1的概率分布,另一方面可以用softmax函数的特性突出重要元素的权重;

 

第三步:根据权重系数对Value进行加权求和:

 图示如下:

 可以把以上的过程用简洁的公式整理出来:

下面来看文章的中是如何将两个模态进行融合的,下图为网络结构:

该模块是基于注意机制开发的,其目标是基于查询x从上下文向量y_{j}中检索信息。通常,我们可以先使用MLP层计算查询x和上下文向量y_{j}之间的相似性分数。然后,该分数将使用Softmax运算符进行标准化。最后,上下文向量将被加权并求和为注意层的输出

 原论文讲的很清楚,就直接贴出来论文了

 

 三.总结

本文中融合RGB相机数据和事件相机数据,使用了交叉注意力机制和自注意力机制将两个模态进行融合,用来进行跟踪任务

 四.个人想法

 也许在现有任务上使用RGB和事件相机数据融合在一起也许会更好

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
事件驱动视觉是一种新型的目标跟踪方法,它利用视觉传感器对目标的视觉变化进行实时响应。传统的目标跟踪方法往往通过连续的图像帧来实现目标的位置预测和跟踪,然而这种方法在处理高速移动目标时会存在一定的困难。而事件驱动视觉则能够在目标产生事件变化时立即做出响应,实现对目标的快速跟踪和定位。这种方式能够在高速移动目标的情况下更加稳定和准确地进行跟踪,大大提高了目标跟踪的效率和准确性。 事件驱动视觉利用神经元级别的传感器对光强的变化进行监测,只有在光强发生明显变化时才会输出事件信号,因此能够对光线变化的信息进行高效地捕捉。而传统的图像传感器则会对整个图像进行连续的采集和处理,无法很好地应对高速移动目标产生的快速光强变化。通过事件驱动视觉,可以实现对快速移动目标的高速跟踪,同时还能够减少对计算资源的需求,提高目标跟踪的实时性和稳定性。 总的来说,事件驱动视觉为目标跟踪提供了一种全新的思路和方法,通过对光强变化的快速响应,能够实现对高速移动目标的快速、稳定和准确的跟踪,对于机器人、自动驾驶等领域的应用具有非常大的潜力和价值。随着事件传感器技术的不断发展和完善,事件驱动视觉在目标跟踪领域的应用前景也将会更加广阔。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值