CVPR2024:首个大规模、高分辨率基于事件的跟踪数据集!HDETrack:基于多尺度知识蒸馏的事件跟踪框架

Paper: https://arxiv.org/abs/2309.14611

Code: https://github.com/Event-AHU/EventVOT_Benchmark

Demo video: Demo video for EventVOT dataset - YouTube

Motivation

本文主要介绍了一种基于多尺度知识蒸馏的事件跟踪框架。现有的工作要么利用对齐的RGB和事件数据进行精确的跟踪,要么直接学习基于事件的跟踪器。第一类需要很高的推理成本,第二类可能很容易受到噪声事件或稀疏空间分辨率的影响。

为了解决上述问题,本文主要提出了一种新的多层次知识蒸馏框架称为HDETrack,该框架可以在训练过程中充分利用多模态/多视图信息来促进知识迁移,使得能够在测试过程中仅仅使用事件信号来实现高速和低延迟的视觉跟踪。具体来说,首先通过同时提供的RGB帧和事件流来训练一个基于教师Transformer的多模态跟踪框架。在此基础上,设计了一种新的层次知识蒸馏策略,包括两两相似性特征表示基于响应映射的知识蒸馏来指导学生Transformer网络的学习。

此外,由于现有的基于事件的跟踪数据集都是低分辨率的(346×260),本文提出了第一个大规模的高分辨率的(1280×720)数据集,命名为EventVOT。它包含了1141个视频,并涵盖了广泛的类别,如行人、车辆、无人机、乒乓球等。

最后,本文在低分辨率数据集(FE240hz,VisEvent,COESOT)和本文新提出的高分辨率EventVOT数据集上进行的大量实验,充分验证了所提出的方法的有效性。

Methodology

上图展示了HDETrack的框架图,其上半部分是教师的网络模型,仅在训练阶段使用,测试阶段使用下半部分的学生网络。HDETrack的训练分为两个阶段:

 单独训练教师网络

第一阶段需要训练一个鲁棒的教师网络,通过输入RGB和事件流的双模态数据,利用Transformer作为骨干网络来提取特征并进行信息的交互和融合,Transformer的输出送入跟踪头来预测跟踪的响应结果。

 训练学生网络并进行知识蒸馏

当第一阶段的教师网络训练完成之后,将教师网络学习好的网络参数冻结,来开始第二阶段学生网络的训练。第二阶段的训练是知识蒸馏的过程,教师网络输入的依然是RGB和事件流的双模态数据,学生网络输入的是单模态的事件数据(事件帧、Voxel、Time-surface、重构灰度图等数据形式),学生网络同样以Transformer作为骨干网络来提取特征,将输出的特征输入跟踪头预测跟踪结果。同时,通过三层知识蒸馏来利用教师网络的参数对学生网络的学习进行监督。

大规模高分辨率事件数据集EventVOT

本文提出了一个大规模的高分辨率(1280×720)事件跟踪数据集——EventVOT。该数据集共有1141个视频,包含19个类别和14个挑战属性,其目标物体的属性、类别和边界框中心点分布可视化效果图如下所示:

数据集的可视化样例

实验结果

除了新提出的EventVOT数据集外,本文还在现有的基于事件的跟踪数据集上与其他SOTA的视觉跟踪器进行了比较,包括FE240hz、VisEvent和COESOT数据集,实验结果如下:

EventVOT

FE240hz

VisEvent

COESOT

visualization

Reference

[1] Botao Ye, Hong Chang, Bingpeng Ma, and Shiguang Shan. Joint feature learning and relation modeling for tracking: one-stream framework. InEuropean Conference on ComputerVision, 2022.

[2] Chuanming Tang, Xiao Wang, Ju Huang, Bo Jiang, Lin Zhu,Jianlin Zhang, Yaowei Wang, and Yonghong Tian. Revisiting color-event based tracking: A unified network, dataset, and metric.arXiv preprint arXiv:2211.11010, 2022.

[3] Jiqing Zhang, Bo Dong, Haiwei Zhang, Jianchuan Ding, Felix Heide, Baocai Yin, and Xin Yang.Spiking transformers for event-based single object tracking. InProceedings of the IEEE/CVF conference on Computer Vision and Pattern Recognition, pages 8801–8810, 2022

[4] Junfei Zhuang, Yuan Dong, and Hongliang Bai. Ensemble learning with siamese networks for visual tracking. Neuro-computing, 464:497–506, 2021.

[5] Xiao Wang, Jianing Li, Lin Zhu, Zhipeng Zhang, Zhe Chen, Xin Li, Yaowei Wang, Yonghong Tian, and Feng Wu. Visevent: Reliable object tracking via collaboration of frame and event flows.arXiv preprint arXiv:2108.05015, 2021.

其他事件跟踪工作

1.VisEvent: Reliable Object Tracking via Collaboration of Frame and Event Flows (Xiao Wang, Jianing Li, Lin Zhu, Zhipeng Zhang, Zhe Chen, Xin Li, Yaowei Wang, Yonghong Tian, Feng Wu)

Paper: https://arxiv.org/abs/2108.05015

Code: https://github.com/wangxiao5791509/VisEvent_SOT_Benchmark

Demo video: https://www.youtube.com/watch?v=U4uUjci9Gjc

2.Revisiting Color-Event based Tracking: A Unified Network, Dataset, and Metric (Chuanming Tang, Xiao Wang, Ju Huang, Bo Jiang, Lin Zhu, Jianlin Zhang, Yaowei Wang, Yonghong Tian)

Paper:https://arxiv.org/abs/2211.11010

Code: https://github.com/Event-AHU/COESOT/tree/main

Demo video: https://www.youtube.com/watch?

  • 23
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
以下是基于渐消因子的强跟踪滤波算法的Matlab代码实现: ``` % 基于渐消因子的强跟踪滤波算法 % 参考文献:[1] B. J. Kim, et al. “Real-time visual tracking using adaptive correlation filters,” CVPR, 2015. % 输入: % - im: 当前帧图像 % - state: 上一帧目标的状态 [x, y, w, h] % - param: 算法参数结构体,包含以下字段: % - search_area_scale: 搜索区域尺度,相对于目标尺寸的倍数,默认为 4 % - output_sigma_factor: 输出响应图尺度因子,默认为 0.1 % - learning_rate: 模型更新速率,默认为 0.075 % - regularization: 正则化参数,默认为 0.01 % 输出: % - state: 当前帧目标的状态 [x, y, w, h] function state = dsst_tracking(im, state, param) % 参数设置 if ~exist('param', 'var') param = struct(); end if ~isfield(param, 'search_area_scale') param.search_area_scale = 4; end if ~isfield(param, 'output_sigma_factor') param.output_sigma_factor = 0.1; end if ~isfield(param, 'learning_rate') param.learning_rate = 0.075; end if ~isfield(param, 'regularization') param.regularization = 0.01; end % 模板大小 target_sz = [state(4), state(3)]; template_size = floor(target_sz * (1 + param.search_area_scale)); if mod(template_size(1), 2) == 0 template_size(1) = template_size(1) + 1; end if mod(template_size(2), 2) == 0 template_size(2) = template_size(2) + 1; end % 搜索区域 search_area = imcrop(im, [state(1), state(2), template_size(2)-1, template_size(1)-1]); % 特征提取 features = get_features(search_area); % 响应图 response = real(ifft2(sum(conj(param.model) .* fft2(features), 3))); response = circshift(response, floor(size(response)/2)); % 目标位置估计 [row, col] = find(response == max(response(:)), 1); pos = double([col, row]); pos_in_search_area = pos - floor(size(response)/2); state(1) = state(1) + pos_in_search_area(1); state(2) = state(2) + pos_in_search_area(2); % 模板更新 new_features = get_features(imcrop(im, [state(1), state(2), target_sz(2)-1, target_sz(1)-1])); new_model = (1 - param.learning_rate) * param.model + param.learning_rate * new_features; param.model = new_model / norm(new_model(:)); % 输出响应图缩放 output_sz = size(response) * param.output_sigma_factor; y = gaussian_shaped_labels(output_sz); yf = fft2(y); param.model = bsxfun(@rdivide, param.model, sum(param.model .* conj(param.model), 3) + param.regularization); param.model_f = fft2(param.model); state(3) = state(3) + param.learning_rate * (target_sz(2) - state(3)); state(4) = state(4) + param.learning_rate * (target_sz(1) - state(4)); end % 获取特征 function features = get_features(im) % TODO:使用合适的特征提取方法 end % 生成高斯响应图 function y = gaussian_shaped_labels(sz, sigma) if nargin < 2 sigma = 0.5; end [rs, cs] = ndgrid((1:sz(1))-floor(sz(1)/2), (1:sz(2))-floor(sz(2)/2)); y = exp(-0.5 / sigma^2 * (rs.^2 + cs.^2)); y = circshift(y, floor(sz/2)); end ``` 其中,`get_features` 函数需要根据具体应用选择合适的特征提取方法。在实际应用中,可以采用 HOG 特征、颜色直方图等方式进行特征提取。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值