- 博客(39)
- 收藏
- 关注
原创 Learning Dynamic Memory Networks for ObjectTracking(论文翻译)
用于目标跟踪的学习动态记忆网络摘要 用于视觉跟踪的模板匹配方法由于其相当的性能和快速的速度而得到了广泛的应用。然而,它们缺乏有效的方法来适应目标对象外观的变化,使得它们的跟踪精度仍然远远达不到最先进的水平。在本文中,我们提出了一种动态记忆网络来使模板适应跟踪过程中目标的外观变化。采用LSTM作为存储控制器,输入为搜索特征图,输出为存储块读写过程的控制信号。由于目标在搜索特征图中的位置最初是未知的,因此应用了一种注意力机制来将LSTM输入集中到潜在目标上。为了防止激进的模型自适应,我们应用门限残
2022-09-12 00:41:33 1015 1
原创 XMem: Long-Term Video Object Segmentationwith an Atkinson-Shiffrin Memory Model(论文翻译)
X Men:使用 Atkinson-Shiffrin 记忆模型进行长期视频对象分割摘要 受Atkinson-Shiffrin记忆模型的启发,我们提出了一种用于长视频的视频对象分割体系结构XMem,它具有统一的特征记忆存储。关于视频对象分割的现有工作通常只使用一种类型的特征记忆。对于长于一分钟的视频,单一功能内存模型将内存消耗和准确性紧密联系在一起。相反,遵循Atkinson-Shiffrin模型,我们开发了一个包含多个独立但深度连接的特征记忆存储的体系结构:快速更新的感觉记忆、高分辨率工作记忆
2022-09-08 23:11:07 2879 3
原创 STMTrack: Template-free Visual Tracking with Space-time Memory Networks(STMTrack: 基于时空记忆网络的无模板视觉跟踪)
广泛的实验和比较许多有竞争力的跟踪器在挑战大规模基准,OTB-2015,TrackingNet,GOT-10k,LaSOT,UAV123,和 VOT2018,表明,没有花哨,我们的跟踪器优于所有先进的实时方法,同时运行在37 FPS。我们的时空记忆网络是灵活的,因此在推理过程中使用的记忆帧的数量(即记忆大小)与训练过程中的记忆帧的数量无关(见第4.3节,不同数量的记忆帧在两个阶段对性能的影响)。具体地说,来自第一帧的目标提供最可靠的信息,而来自前一帧的被跟踪目标具有与当前帧中的目标最相似的外观。...
2022-08-30 21:36:07 1500
原创 Learning Multi-Domain Convolutional Neural Networks for Visual Tracking
MDNet论文翻译
2022-08-10 10:52:58 500
原创 Swin Transformer: Hierarchical Vision Transformer using Shifted Windows(论文翻译)
摘要本文提出了一种新的视觉转换器,称为Swin Transformer,它可以作为计算机视觉的通用主干。在将Transformer从语言适应到视觉方面的挑战源于这两个领域之间的差异,例如视觉实体的规模差异很大,以及图像中的像素与文本中的文字相比分辨率较高。为了解决这些差异,我们提出了一种分层转换器,其表示是通过移位窗口来计算的。移位窗口方案通过将自我注意计算限制在非重叠的局部窗口,同时还允许跨窗口连接,从而带来了更高的效率。这种分层结构具有在不同尺度上建模的灵活性,并且具有关于图像大小的线性计算复杂性。
2022-05-30 22:49:59 643
原创 Masked Autoencoders Are Scalable Vision Learners(论文翻译)
摘要本文证明了掩蔽自动编码器(MAE)是一种可伸缩的计算机视觉自监督学习器。我们的MAE方法很简单:我们掩蔽输入图像的随机块并重建丢失的像素。它基于两个核心设计。首先,我们开发了一个非对称编解码器体系结构,编码器只在可见的patch子集上操作(没有掩码tokens),以及一个轻量级的解码器,它根据潜在的表示和掩码tokens重建原始图像。其次,我们发现,掩蔽高比例的输入图像,例如75%,会产生一个不平凡且有意义的自我监督任务。将这两种设计结合起来,使我们能够高效地训练大型模型:我们将训练...
2022-04-26 22:01:01 764
原创 Dual Attention Matching Network for Context-Aware Feature Sequence basedPerson Re-Identification(论文)
摘要典型的行人重新识别 (ReID) 方法通常用单个特征向量描述每个行人,并将它们匹配到特定于任务的度量空间中。然而,基于单个特征向量的方法不足以克服视觉模糊,这在现实场景中经常发生。在本文中,我们提出了一种新颖的端到端可训练框架,称为双注意力匹配网络 (DuATM),用于学习上下文感知特征序列并同时执行注意力序列比较。我们 DuATM 框架的核心组件是双重注意机制,其中序列内和序列间注意策略分别用于特征细化和特征对对齐。因此,可以自动利用和适当比较中间特征序列中包含的详细视觉线索。我们...
2022-04-05 20:51:06 4049
原创 Dual Attention Network for Scene Segmentation(论文翻译)
paper:https://arxiv.org/abs/1809.02983code:https://github.com/junfu1115/DANet摘要在本文中,我们通过基于自注意力机制捕获丰富的上下文依赖关系来解决场景分割任务。与以前通过多尺度特征融合捕获上下文的工作不同,我们提出了一个双注意力网络 (DANet) 来自适应地将局部特征与其全局依赖关系集成。具体来说,我们在扩张的 FCN 之上附加了两种类型的注意力模块,它们分别对空间和通道维度的语义相互依赖关系进行建模。...
2022-03-27 22:15:41 4634
原创 Beyond Self-attention: External Attention usingTwo Linear Layers for Visual Tasks(论文翻译)
摘要 注意机制,尤其是自我注意,在视觉任务的深度特征表示中发挥了越来越重要的作用。自注意力通过使用所有位置的成对亲和力计算特征的加权和来更新每个位置的特征,以捕获单个样本中的长期依赖关系。然而,self-attention 具有二次复杂度,并且忽略了不同样本之间的潜在相关性。本文提出了一种新的注意力机制,我们称之为外部注意力,它基于两个外部的、小的、可学习的、共享的内存,只需使用两个级联的线性层和两个归一化层就可以轻松实现;它方便地取代了现有流行架构中的 self-attention。外...
2022-03-26 15:52:25 5331 1
原创 Squeeze-and-Excitation Networks(论文翻译)
摘要卷积神经网络建立在卷积操作的基础上,它通过在局部感受野中将空间和通道信息融合在一起来提取信息特征。为了提高网络的表示能力,最近的几种方法已经显示出增强空间编码的好处。在这项工作中,我们专注于通道关系并提出了一个新的架构单元,我们称之为“Squeezeand-Excitation”(SE)块,它通过显式建模通道之间的相互依赖关系来自适应地重新校准通道特征响应。我们证明,通过将这些块堆叠在一起,我们可以构建 SENet 架构,该架构在具有挑战性的数据集上泛化得非常好。至关重要的是,我们发现 SE 块以最
2022-03-22 17:31:17 4489
原创 Aggregated Residual Transformations for Deep Neural Networks(论文翻译)
摘要我们提出了一种用于图像分类的简单、高度模块化的网络架构。我们的网络是通过重复一个构建块来构建的,该构建块聚合了一组具有相同拓扑的转换。我们简单的设计产生了一个同质的多分支架构,只需设置几个超参数。这个策略暴露了一个新的维度,我们称之为“基数”(转换集的大小),作为深度和宽度维度之外的一个重要因素。在 ImageNet-1K 数据集上,我们凭经验表明,即使在保持复杂性的限制条件下,增加基数也能够提高分类精度。此外,当我们增加容量时,增加基数比更深或更宽更有效。我们的模型名为 ResNeXt,是我们进入
2022-03-18 16:52:42 2080
原创 End-to-End Object Detection with Transformers(论文翻译)
摘要我们提出了一种将目标检测视为直接集合预测问题的新方法。我们的方法简化了检测流程,有效地消除了对许多手工设计组件的需求,例如显式编码我们关于任务的先验知识的非最大抑制过程或锚生成。新框架的主要成分,称为 DEtection TRansformer 或 DETR,是基于集合的全局损失,通过二分匹配强制进行独特的预测,以及转换器编码器 - 解码器架构。给定一组固定的学习对象查询,DETR 推理对象的关系和全局图像上下文以直接并行输出最终的预测集。与许多其他现代探测器不同,新模型在概念上很简单,不需要专门的
2022-03-14 16:34:43 1961
原创 C++学习(7)——STL
1.STL基本概念STL——standard template library,标准模板库STL从广义上分为:容器、算法、迭代器;STL几乎所有的代码都采用了模板类或者模板函数;2.STL六大组件分别是:容器、算法、迭代器、仿函数、适配器、空间配置器容器:各种数据结构,如vector、list、deque、set、map等,用来存放数据。算法:各种常用的算法,如sort、find、copy、for_each等。迭代器:扮演了容器与算法之间的胶合剂。仿函数:行为类似函数,可
2022-02-14 22:45:39 99
原创 力扣刷题记录(纯个人记录)
9.回文数给一个整数 x ,如果 x 是一个回文整数,返回 true ;否则,返回 false 。回文数是指正序(从左向右)和倒序(从右向左)读都是一样的整数。例如,121 是回文,而 123 不是。解题思路:(1)负数肯定不是回文数,而0是;(2)整十的数不是回文数,因为数字最开始不可能有0;(3)正整数判断是否为回文数,只需要将后一半的数字与前一半的数字对比即可,需要区分整数的位数为奇数还是偶数。if(x<0 ) { // 负数直接返回fals
2022-02-14 21:43:58 270
原创 C++学习(6)——模板
1.模板的基本语法作用:建立一个通用函数,其函数返回值类型和形参类型可以先不指定,用一个虚拟的类型来代表。提高复用性,将类型参数化。template <typename T>函数声明或定义template:声明创建模板typename:表示其后面的符号是一种数据类型,可以用class代替T:通用的数据类型,名称可以替换,通常为大写字母//利用模板进行通用的数据转换template <typename T> //声明一个模板,告诉编译器T不要
2022-01-25 19:30:12 231
原创 Learning Multi-Domain Convolutional Neural Networks for Visual Tracking(论文翻译)
用于视觉跟踪的多域卷积神经网络学习算法目录摘要1.引言2.相关工作2.1 视觉跟踪算法2.2 卷积神经网络2.3 多域学习3.多域网络(MDNet)3.1 网络结构3.2 学习算法4.用MDNet在线跟踪4.1跟踪控制和网络更新4.2硬例挖掘4.3 边界框回归4.4 实验细节5.实验5.1 在OTB100上评估5.2对VOT2014数据集的评估6.结论摘要 我们提出了一种新的基于判别训练卷积神经网络(C...
2021-12-19 20:57:52 577
原创 Pyramid Correlation based Deep Hough Votingfor Visual Object Tracking(论文翻译)
摘要 现有的基于Siamese的跟踪器大多将跟踪问题视为分类和回归的并行任务。然而,一些研究表明,在网络训练过程中,兄弟头结构可能导致次优解。通过实验我们发现,在没有回归的情况下,只要精心设计网络以适应训练目标,性能同样有希望。提出了一种新的基于投票的纯分类跟踪算法--基于金字塔相关的深度霍夫投票算法(PCDHV),用于联合定位目标的左上角和右下角。具体地说,我们创新性地构建了金字塔相关模块,为嵌入的特征提供细粒度的局部结构和全局空间上下文;精心设计的Deep Hough Voting模块...
2021-11-28 22:22:04 2326
原创 C++学习记录(5)——文件操作
1.写文件C++中对文件操作需要包含头文件<fstream>文本文件:文件以文本的ASCII码形式存储在计算机中。二进制文件:文件以文本的二进制形式存储在计算机中。写文件的步骤:#include <fstream> //包含头文件ofstream ofs; //创建流对象ofs.open("文件路径(文件名)",打开方式); //打开文件ofs<<"写入的数据"; //写入数
2021-11-25 21:07:13 159
原创 C++学习记录(4)——多态
2021.11.231.多态的基本概念多态分为:静态多态和动态多态静态多态:函数重载 和 运算符重载,地址早绑定,编译阶段确认函数地址。动态多态:派生类和虚函数实现运行时多态,地址晚绑定,运行阶段确定函数地址。class Animal{public: virtual void Speak() { //加了关键字virtual,形成虚函数 cout << "动物在说话" << endl; }};class Cat :public An
2021-11-25 15:56:43 411
原创 C++学习记录(3)——继承
2021.11.231.继承的基本语法// class 子类 : 继承方式 父类class A : public B{ };A类称为子类或派生类; B类称为父类或基类2.继承方式公共继承:父类中public和protected不变,父类中的private不可访问保护继承:父类中public和protected变为protected,父类中的private不可访问私有继承:父类中public和protected变为怕private,父类中的private不可访问
2021-11-23 21:43:02 448
原创 C++学习记录(2)——运算符重载
2021.11.23类和对象之运算符重载1.加法运算符重载class Person{public: Person() {}; //默认构造函数,用于后面定义Person temp; Person(int a, int b) { m_A = a; m_B = b; } //Person operator+(Person &p) //成员函数实现加法重载 //{ // Person temp; // temp.m_A = this->m_A
2021-11-23 20:00:30 514
原创 Learning Spatio-Temporal Transformer for Visual Tracking(论文翻译)
目录摘要1.引言2.相关工作3.方法3.1 transformer的基准3.2时空transformer跟踪4.实验4.1 实施细节4.2 结果和比较4.3基于组件的分析4.4与其他框架的比较4.5 可视化5.结论摘要本文提出了一种以编码-解码器transformer为关键组件的跟踪体系结构。编码器对目标对象和搜索区域之间的全局时空特征依赖关系进行建模,而解码器学习嵌入的查询以预测目标对象的空间位置。我们的方法将目标跟踪作为一...
2021-11-20 22:19:59 3356
原创 配置PySOT中问题记录
一.配置OTB1.检查OTB100数据集中文件夹名字是否需要修改,如Human4改成Human4-2,注意算法跑出来的txt文件名字是“Human4-2”还是"Human4_2"。二.配置VOT2018直接运行会出现一下错误ValueError: max() arg is an empty sequence这里是存放的txt文件路径又问题在pysot/toolkit/datasets/vot.py中75行#源代码traj_files = glob(os.path.join
2021-11-17 22:46:50 961
原创 Learning Discriminative Model Prediction for Tracking(论文翻译)
摘要当前端到端可训练计算机视觉系统的努力对视觉跟踪任务提出了重大挑战。与大多数其他视觉问题不同,跟踪需要在推理阶段在线学习健壮的特定于目标的外观模型。因此,为了端到端可训练,目标模型的在线学习需要嵌入到跟踪体系结构本身中。由于这些挑战,流行的Siamese范例只是简单地预测目标特征模板,而忽略了推理过程中的背景外观信息。因此,预测模型具有有限的目标-背景分辨能力。我们开发了一种端到端的跟踪体系结构,能够充分利用目标和背景外观信息进行目标模型预测。我们的体系结构是通过设...
2021-11-14 20:11:47 2737
原创 Deep Learning for UAV-based Object Detection andTracking: A Survey(论文翻译)
目录摘要1.引言2.相关调查和简要统计A.无人机飞机统计数据B.挑战C.贡献3.无人机机载图像中的目标检测A.数据处理B.基于尺度多样性的目标检测C.小目标上的目标检测D.基于方向分集的目标检测E.基于检测速度的目标检测F.基于其他的目标检测4.无人机载视频中的目标检测A.基于光流的网络B.基于记忆网的网络C.基于跟踪的网络5.基于无人机视频的多目标跟踪A.Tracking-by-DetectionB.单目标跟踪辅助多目...
2021-10-31 20:42:56 8849
原创 Aggregation Signature for Small Object Tracking(论文翻译)
目录摘要1.引言2.聚合签名A.聚合签名的定义B.前景聚合签名属性3.聚合签名跟踪器4.实验A.数据集B.图像上的聚合签名C.跟踪上的聚合签名5.结论论文地址:https://arxiv.org/pdf/1910.10859.pdf数据集:https://github.com/bczhangbczhang/摘要小目标跟踪成为一项越来越重要的任务,但在计算机视觉领域却鲜有人涉足。最大的挑战来自于这样一个事实:1)小物体的外观非常模...
2021-10-28 10:18:39 771 4
原创 A Benchmark and Simulator for UAV Tracking(论文翻译)
目录摘要1.引言相关工作2.基准--离线评估2.1 数据集2.2 评估算法2.3 评估方法3.模拟器-在线评估3.1设置和限制3.2评估的新方法3.3评价方法论4.实验4.1 基准评估4.2模拟器评估(定量和定性结果)5.结论和下一步工作摘要本文提出了一种用于低空无人机目标跟踪的新的航空视频数据集和基准,以及一个可以与跟踪方法相结合的真实感无人机模拟器。我们的基准对从低空空中拍摄的123个新的、带完整注释的高清视频序...
2021-10-26 22:32:21 1668
原创 LaSOT: A High-quality Benchmark for Large-scale Single Object Tracking(论文翻译)
目录摘要1.引言1.1 贡献2.相关工作2.1密集基准2.2 其他基准3.提出的LaSOT基准3.1 设计原则3.2 数据收集3.3 注释3.4 属性3.5评估方案4.评估4.1评估指标4.2 评估跟踪器4.3 按照方案I的评估结果4.4 按照方案II的评估结果4.5 在LaSOT的再训练实验5.结论摘要本文提出了一种高质量的大规模单目标跟踪基准算法LaSOT。LaSOT由1400个序列组成,...
2021-10-26 19:27:26 3036 2
原创 TrackingNet: A Large-Scale Dataset andBenchmark for Object Tracking in the Wild(论文翻译)
目录摘要1.引言2.相关工作3.TrackingNet3.1从YT-BB到TrackingNet训练集3.2从YT-CC到TrackingNet测试集3.3 注释3.4 评价4.数据集实验5.跟踪基准5.1TrackingNet上最先进的基准测试5.2 实时跟踪5.3 在训练网络上再训练5.4特定于属性的结果6.结论摘要尽管在目标跟踪方面取得了许多进展,但当前跟踪算法的进一步发展受到小且几乎饱和的数据集的...
2021-10-25 21:08:19 980
原创 Siamese Transformer Pyramid Networks for Real-Time UAV Tracking(论文翻译)
论文地址:https://arxiv.org/pdf/2110.08822.pdfCode:https://github.com/RISC-NYUAD/SiamTPNTracker目录摘要1.引言2.相关工作2.1 轻量级网络2.2 目标跟踪3.提出的方法3.1 特征提取网络3.2 特征融合网络3.3 Transformer金字塔网络3.4 预测头4.实验研究4.1 实施细节4.2 消融实验4.3与最先进的跟踪器的比较4.4真...
2021-10-21 22:20:01 3849
原创 GOT-10k: A Large High-Diversity Benchmark forGeneric Object Tracking in the Wild(论文翻译)
论文地址:https://arxiv.org/abs/1810.11981Code:GOT-10k: Generic Object Tracking Benchmark目录摘要1.引言2.相关工作3.GOT-10K的构建4.实验5.结论摘要我们在这里介绍一个大型的跟踪数据库,它提供了对野外常见移动对象的空前广泛的覆盖,称为GOT-10K。具体地说,GOT-10k构建在WordNet结构[1]的主干上,它填充了超过560类移动对象和87种运动模式...
2021-10-20 17:31:21 3630
原创 Siamese Keypoint Prediction Networkfor Visual Object Tracking(论文翻译)
论文:代码:GitHub - ZekuiQin/SiamKPN: Siamese Keypoint Prediction Network for Visual Object Tracking摘要视觉目标跟踪的目的是在给定初始边界框的情况下估计视频序列中任意目标的位置。通过利用离线特征学习,Siamese范例最近已成为高性能跟踪的领先框架。然而,现有的Siamese跟踪器要么严重依赖复杂的基于锚点的探测网络,要么缺乏抵抗干扰的能力。在本文中,我们提出了Siamese关键点预测网络(...
2021-10-17 22:14:36 416
原创 SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks(论文翻译)
论文地址:https://arxiv.org/pdf/1812.11703.pdf项目地址:SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks摘要基于孪生网络的跟踪器将跟踪公式化为目标模板和搜索区域之间的卷积特征互相关。然而,与最先进的算法相比,孪生追踪器的准确度仍然有差距,而且它们不能利用深层网络的特性,例如 resnet-50或更深层次的特性。在本文中,我们证明了其核心原因在于缺乏严格...
2021-10-15 15:31:13 916
原创 Java学习记录——常用方法定义(随手加)
定义数组int [] array = new int [10]; //定义长度为10的arrayshuz数组使用foreach循环输出数组中的元素for(变量名 : 数组名){ }
2020-02-01 11:48:11 145 1
原创 Java学习记录——Calendar类的使用
Date 类最主要的作用就是获得当前时间,同时这个类里面也具有设置时间以及一些其他的功能,但是由于本身设计的问题,这些方法却遭到众多批评,不建议使用,更推荐使用 Calendar 类进行时间和日期的处理。java.util.Calendar 类是一个抽象类,可以通过调用getInstance()静态方法获取一个 Calendar 对象,此对象已由当前日期时间初始化,即默认代表当前时间,如 ...
2020-01-31 19:14:04 183
原创 Java学习记录——时间Date的使用和格式转化
在程序开发中,经常需要处理日期和时间的相关数据,此时我们可以使用 java.util 包中的 Date 类。这个类最主要的作用就是获取当前时间,我们来看下 Date 类的使用:Date d = new Date();System.out.println(d); //输出当前时间Fri表示星期五, Jan表示January,CST表示中国标准时间(需导入java.util...
2020-01-31 18:45:48 152
原创 Java学习记录——String类的的方法和使用
int length (); 返回当前字符串长度int indexOf (int ch); 查找该字符第一次出现的位置int indexOf (String str); 查找该字符串第一次chu出现的位置int lastIndexOf (int ch); 查找字符最后一次出现的位置int lastIndexOf (String str); 查找字符串最后一次...
2020-01-01 15:22:39 108
原创 Java学习记录——异常捕获
Java异常中我们常见的异常主要是检查异常,其中检查异常zhuy主要有如下四种:1、空指针异常,具体代码体现如下 String str = null; try { System.out.println(str.length()); }catch(Exception e){ System.out.pr...
2020-01-01 11:00:57 180
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人