- 博客(64)
- 收藏
- 关注
原创 多任务学习(Multi-Task Learning, MTL)
多任务学习是一种归纳迁移机制,利用额外的信息来源来提高当前任务的学习性能,包括提高泛化准确率、学习速度和已学习模型的可理解性。在学习一个问题的同时,可以通过使用共享表示来获得其他相关问题的知识,多个任务并行训练并共享不同任务已学到的特征表示,是多任务学习的核心思想。通过往后向传播网络增加额外输出可提高神经网络的泛化能力,是一件很有意义的事情,能提高泛化能力的可能原因有三:第一,不相关任务对于聚合梯度的贡献相对于其他任务来说可以视为噪声,不相关任务也可以通过作为噪声源来提高泛化能力;
2025-06-03 15:09:43
796
原创 MOT challenge使用方法及数据集说明
一共8个视频序列,4个训练集,4个测试集。测试集的gt没有给出,因此想要得到测试集的结果需要在MOT官网上传你的结果去评估。每个图片都是jpg格式,且命名为6个数字的文件如(000001.jpg) 平均每帧有246个行人。除了行人,注释还包括车辆和自行车等其他类别。MOTA:t是帧的下标,表示t帧时ground truth的目标数量。MOTA的值域为(-∞, 100] 为负表示跟踪导致的错误的数量超过了场景中所有物体的总和。MOTP:表示TP和对应的gt目标的边框重叠率,表示t帧的匹配数量。
2025-05-30 20:30:55
1345
原创 在Pytorch中使用Tensorboard可视化训练过程
【在Pytorch中使用Tensorboard可视化训练过程】 https://www.bilibili.com/video/BV1Qf4y1C7kz/?
2025-04-22 20:43:04
455
原创 Graph Attetion Networks
时间:2018会议:ICLR作者:Petar Velickovic, Guillem Cucurull, Arantxa Casanova, Yoshua Bengio。
2025-04-06 16:20:52
456
原创 GMTracker:Incorporating Graph Partitioning With Deep Feature Learning for Multiple Object Tracking
①当前方法通常关注跨帧关联,帧内信息被忽略②深度学习方法缺少结构建模能力,没有利用图匹配等优化算法的组合优势③图优化与特征学习割裂。
2025-03-28 19:59:12
600
原创 Hyper-YOLO: When Visual Object Detection Meets Hypergraph Computation
①Hyper-YOLO引入一种新的目标检测方法,结合超图计算捕捉视觉特征中的复杂高阶相关性②为解决传统的YOLO模型在 Neck 结构上的局限,提出了HGC-SCS框架。
2025-03-12 20:51:34
1282
原创 Online Multi-Target Tracking with Tensor-Based High-Order Graph Matching
①匹配能量张量综合了外观相似性、运动一致性、空间几何关系,用于衡量匹配概率②超边表示多个目标之间的匹配关系,能够利用高阶信息进行全局优化③提出了一个范数张量幂迭代求解匹配矩阵④提出了一种基于对象掩模的深度成对外观相似度度量超图节点: 每个目标(轨迹点或观测点)作为节点超边: 轨迹片段(多个匹配点的组合)匹配问题: 计算轨迹-观测匹配关系,保证轨迹拓扑结构不变每个椭圆表示一个轨迹 :T1、T2、T3 是之前帧里已经跟踪到的目标;O1、O2 是当前帧新检测到的目标;D 代表“缺失检测”
2025-03-10 14:04:22
1143
原创 摄相机标定的基本原理
内参:就像相机的“眼睛”。它描述了相机内部的特性,比如焦距(镜头的放大能力)、主点位置(图像中心)等。简单说,这些参数决定了相机如何把外界景物映射到图像上。外参:可以看作相机在“房间”里的位置和朝向。它描述了相机相对于实际世界(例如房间、街道)的摆放位置和角度,告诉我们相机看世界的角度和方向。畸变参数:就像眼镜的“矫正”作用。由于相机镜头的设计缺陷,拍出来的图像会有些弯曲或失真(比如直线看起来弯曲)。畸变参数就是用来校正这种失真,使图像更接近真实场景。
2025-03-05 19:32:33
1296
原创 社会力模型:Social force model for pedestrian dynamics
时间:1995期刊:《Physical Review E》作者:Dirk Helbing and P´eter Moln´ar提出一种描述行人运动的“社会力模型”。认为行人的运动可看作是受到一系列“社会力”的驱动,这些力反映了行人内在的动机,而非直接由外部物理接触产生。模型主要包括以下几个方面:加速项:行人以一定的期望速度前进,当实际速度偏离目标速度时,会有一个加速/减速过程使其趋向期望速度。相互排斥力:行人与其他行人或障碍物之间保持一定距离,这种排斥作用通过一个随距离呈指数衰减的势能函数来描述。
2025-03-04 21:19:08
1699
原创 HyperGraph(超图)
超图,其中,分别表示超图的节点和边:节点和普通图节点定义相同超边,其中,超边并不是传统意义上的edge,而是一个区域(类似于面),即一条超边可以包含多个节点;如下图用一个圈表示一个超边权重对应于每条超边,每个超边都与一个正权重相关联把超图节点和超边看作两种实体,可以将超图转换为对应的二分图。
2025-02-23 18:33:21
1674
原创 组合优化问题的机器学习研究——以图匹配问题为例
在三个图片上提取点,包括内点、外点、噪声点;试图在两个或多个图中找到点的对应关系;而在比较时不仅要看点与点之间的相似度,还要看每两个点之间的边的相似度,而有了边就有了图的概念,从而引出graph matching。
2025-02-22 15:03:19
1092
原创 MATLAB基础学习相关知识
与其他语言相类似,matlab中也包含选择结构和循环结构这样普通的程序控制结构,与python的表示形式类似,需要用缩进来表示程序的执行步骤,但是不需要像python一样使用冒号”:“字符串在matlab中并不常用,但后续的__2__函数中可能会将字符串转化为其他形式,或将其他形式转化为字符串的形式。多项式创建时自动按照系数向量,按x降幂排列,最右边是常数,若所给数字为[1,2,3,4],则生成的多项式为。cat在matlab中是常用的一种拼接方式,这里cat中的”3“指的是按三维将两个矩阵进行拼接。
2025-02-20 17:02:23
1796
原创 Two-stage graph matching point cloud registrationmethod based on graph attention network
①提出了两阶段匹配点云注册网络(TSGM-net),一阶段图匹配中建立点组对应关系,二阶段图匹配建立对应点群中的点的对应关系②设计DGTP模块,了解点云的本地图的特征表示,提高对本地特征的识别③边缘由Transformer和引入的边缘阈值动态建立,图形注意力网络提取点云的全局特征,以考虑拓扑结构中相似特征之间的关系④得分是从节点本身,局部和全局的三个维度计算得出的第一阶段图匹配可以将点云划分为多个点组,并建立两个点云之间点组的对应关系。基于,第二阶段图匹配可以建立对应点群中的点之间的对应关系。
2025-01-24 22:46:00
698
原创 SCGTracker: Spatio-temporal correlation and graph neural networks formultiple object tracking
时间:2024期刊:《Pattern Recognition》作者:Yajuan Zhang, Yongquan Liang, Jiaxu Leng, Zhihui Wang群体模型的两种主流解决策略:①将数据关联问题转化为图匹配问题来求解缺点:随着跟踪对象数量增加,求解难度增长,无法满足实时跟踪需求的计算效率②应用社会力模型作为群体跟踪的高级约束缺点:限制灵活性社会力模型:一种用于模拟人群或者智能体行为的模型。
2025-01-15 17:38:24
804
5
原创 图匹配(Graph Matching)
给定两个图和并定义两个关联矩阵(Affinity Matrix):表示两幅图节点和节点之间的相似度:表示两幅图边和边之间的相似度:表示图中的第个节点和图的第个节点之间的相似程度:表示图中的第个边和图的第个边之间的相似程度图匹配问题就变成寻找两幅图之间最优的匹配关系,使得节点间的相似度和边之间的相似度之和最大。式(1)中第一项表示匹配节点之间的相似度之和式(1)中第二项表示匹配边之间的相似度之和其中表示了两幅图节点之间的匹配关系,表示图中的第个节点和图的第。
2025-01-14 11:11:24
2022
原创 图匹配算法(涵盖近似图匹配)
给定一个query Q和图G,若存在一个内射函数,满足:①,点的标签一致②,边的标签一致给定两个图Q和G,是否存在一个双射函数点相互对应映射,Q中的边在G中有相互对应的边,存在一对一满足的逆函数使G中两点对应的边在Q中也存在目前为止子图同构问题仍是一个未知问题,无法证明是一个NP-complete问题,也无法找到一个多项式可解算法当两个图的公共部分很多时,可以说这两个图比较相似。
2025-01-13 15:12:26
925
原创 RPT: Learning Point Set Representation for Siamese Visual Tracking
①以更精细的表示作为一组代表点来准确估计目标状态②进一步提出了一种多级聚合策略,通过融合分层卷积层来获取详细的结构信息。
2025-01-03 17:02:49
733
原创 RepPoints: Point Set Representation for Object Detection
时间:2019会议:ICCV作者:Ze Yang,Shaohui Liu,Han Hu,Liwei Wang,Stephen Lin①边界框检测提供粗略定位②提出RepPoints,更精细并且可以自动排列自身,无需锚框进行采样③与当前最先进的基于锚框检测一样具有精确性。
2025-01-02 21:01:11
1178
原创 扩散模型(Diffusion Model)
【扩散模型 - Diffusion Model【李宏毅2023】】 https://www.bilibili.com/video/BV14c411J7f2/?
2024-12-25 17:06:59
1220
原创 MM-Tracker:集成检测和区分特征提取的多任务模型的视觉跟踪
①提出一种集成的网络架构,以同时提取用于目标检测的共同特征和用于目标关联的区分特征②为避免耦合问题,提出多任务头结构和特定损失函数③使用相邻帧的样本组来增强跟踪目标的个人渐变的处理能力。
2024-12-21 20:17:28
769
原创 显著性筛选
SIFT 算法中,响应值是通过对关键点局部区域(特征点附近)进行特征检测后计算的结果。它的大小主要受以下几个因素影响:一个点的响应值越大,说明这个点所在区域的像素对比度越高,也就是周围像素的亮度变化越明显。比如在边缘、角点等区域,响应值通常会更高。在图像中,纹理信息丰富且不易受噪声干扰的区域,其关键点的响应值会更高。例如:图片中人脸的五官(眼睛、鼻子、嘴角等)比均匀的背景显著,因此人脸区域的关键点响应值通常较高。SIFT 会倾向于给稳定、不易变化的点更高的响应值。
2024-12-20 10:02:00
1017
原创 混合高斯背景建模方法
【【目标跟踪实战】运动目标检测、背景建模(帧差法,单高斯、混合高斯)opencv实战-哔哩哔哩】 https://b23.tv/j2VSkUe。
2024-12-19 11:13:48
886
原创 SIFT算法及原理
SIFT,即scale invariant feature transform,译为尺度不变特征转换,是图像处理领域中的一种局部特征描述算法。SIFT算法包括了尺度不变性,在旋转图像、改变图像亮度、移动拍摄位置时,都可以得到较好的检测效果。图像金字塔是一种以多分辨率来解释图像的结构,通过对原始图像进行多尺度像素采样的方式,生成N个不同分辨率的图像;把具有最高级别分辨率的图像放在底部,以金字塔形状排列,金字塔自底向上图像的像素尺寸逐渐降低,到金字塔顶部只包含一个像素点的图像。
2024-12-16 17:22:16
1559
原创 TransCenter: Transformers with DenseRepresentations for Multiple-Object Tracking
时间:2022期刊:TPAMI作者:Yihong Xu, Yutong Ban, Guillaume Delorme, Chuang Gan, Daniela Rus 和 Xavier Alameda-Pineda①TransCenter是第一个预测目标热力图的基于transformer的MOT架构②利用密集像素级的多尺度查询,在一个双decoder的transformer里,能够全局和鲁棒地预测目标中心的热度图并进行关联。
2024-12-13 21:13:59
814
原创 MOTR: End-to-End Multiple-Object Tracking with Transformer
时间:2021会议:ECCV作者:Fangao Zeng, Bin Dong, Yuang Zhang, Tiancai Wang,Xiangyu Zhang, and Yichen Wei扩展了 DETR并引入了 “track query” 来对整个视频中的跟踪实例进行建模提出了 tracklet 感知标签分配来训练 track 查询和新生对象查询。
2024-12-11 21:45:33
1585
原创 MotionTrack: Learning Robust Short-term and Long-term Motionsfor Multi-Object Tracking
①Interaction 模块:从短期轨迹中学习交互感知运动,估计每个目标的复杂运动②Refind 模块:从目标历史轨迹中学习长期运动,将中断的轨迹与其相应的检测联系起来。
2024-12-06 16:57:41
1678
原创 ByteTrack: Multi-Object Tracking by Associating Every Detection Box
时间:2021会议:ECCV作者:Yifu Zhang, Peize Sun, Yi Jiang, Dongdong Yu, Fucheng Weng, Zehuan Yuan, Ping Luo, Wenyu Liu, Xinggang Wang关联几乎每个检测框而不是仅关联高分检测框来进行跟踪对于低分检测框,利用它们与轨迹的相似性来恢复真实对象并过滤掉背景检测。
2024-12-04 11:54:53
1126
原创 TransTrack: Multiple Object Tracking with Transformer
①将前一帧的对象特征应用为当前帧的查询,并引入一组学习的对象查询来检测新出现的对象②通过一次完成对象检测和对象关联建立了一种新颖的联合检测和跟踪范例。
2024-11-29 17:28:59
1878
原创 DETR:End-to-End Object Detection with Transformers
将目标检测看作一个集合预测的问题任务:给定一张图片,预测一组框,每个框需要得到坐标信息和包含的物体类别信息,将框可以视为集合,不同图片所对应的框不同,则所对应的集合就不同去除:NMS、生成anchor提出了一个全新的用于目标检测的DETR框架利用了Transformer和二分图匹配,使框架是一个端到端可学习网络在COCO数据集和全景分割上达到了很好的效果自注意力带来的全局信息使之在大物体上效果更好。
2024-11-26 20:28:31
1911
原创 Vision Transformer(VIT模型)
MLP Head 是指位于模型顶部的全连接前馈神经网络模块,用于将提取的图像特征表示转换为最终的分类结果或其他预测任务输出。MLP Head 通常跟在 Transformer Encoder 的输出之后,作为整个模型的最后一层。可以简单理解为一个全连接层,若需要类别概率需要再接上一个softmax激活函数。
2024-11-24 16:24:37
1610
原创 OSTrack:Joint Feature Learning and Relation Modeling for Tracking: A One-Stream Framework
Abstract问题:传统的双流跟踪框架对目标提取的特征不够具体。特征提取和关系建模是分开进行的,导致算法在区分目标和背景方面的能力有限。两流、两阶段框架容易受到性能-速度困境的影响。解决:提出一种新的单流跟踪框架,OSTrack通过桥接具有双向信息流的模板搜索图像来统一特征学习和关系建模。提出了一种基于单流框架中计算的强相似先验的网络内候选早期消除模块。双流/单流双流框架:①Track-by-detection:检测流+关联流②光流:光流流+特征流。
2024-11-18 17:41:01
2180
原创 多模态简述
模态:事物表达或感知的方式多模态:研究异构和相互连接数据的科学,涵盖了从原始的器官信号到抽象概念的多种模态语音和语言是理解人物交互的关键模态,而情感和图像就为我们提供了对环境和对对象的感知,通过分析模态可以更好的理解人类是如何通过不同的方式感知和表达信息涉及识别和建模,多个模态之间的交叉连接,将其从数据结构中构建起来关注学习生成的一个过程,反应交叉模态交互结构和一致性的原始模态在模态之间转换知识,通常为了帮助目标模态,这些模态可能是嘈杂的或者是资源有限的。
2024-11-16 17:12:10
1114
原创 JDE:Towards Real-Time Multi-Object Tracking 迈向实时多目标跟踪
采用单个网络来同时输出检测结果和检测到的框的相应外观嵌入。
2024-11-15 19:24:30
1265
原创 FairMOT: On the Fairness of Detection and Re-Identification in MultipleObject Tracking
FairMOT 论文提出一种基于 CenterNet 的多目标跟踪方法,解决了检测和重识别(re-ID)任务之间的不公平性问题,通过改进网络设计以提高两者的精度和平衡性。
2024-11-14 09:53:03
1310
原创 ResNet网络详解
超深的网络结构(突破1000层)提出residual模块使用Batch Normalization加速训练(丢弃dropout层)
2024-11-12 21:42:35
3027
原创 RAFT: Recurrent All-Pairs Field Transforms for Optical Flow用于光流估计的循环全对场变换
一个半径内的邻域范围,通常使用L1距离(即曼哈顿距离)来衡量局部网格,该网格包含了周围的像素。
2024-11-12 17:25:15
1253
原创 Universal Consistency of Deep ConvolutionalNeural Networks深度卷积神经网络的通用一致性
但由于ReLU的线性段特性,伪维度控制在可接受的范围内,证明了在无边界限制的参数空间内,通过ERM求解的eDCNN模型可以达到普适一致性。在不限制ReLU神经网络的参数幅值的情况下,传统理论一般难以得到普适一致性的结论,但论文通过ReLU的特性推导出一个紧密的伪维度估计,结合覆盖数理论,最终证明了eDCNN在不限制参数幅值的情况下,仍能达到强一致性。总结了本文的主要贡献,强调了深度卷积神经网络作为一个普适的逼近器,在某些条件下能够达到一致性,证明了其在理想情况下具有逼近最优分类规则的能力。
2024-11-07 11:29:44
1058
原创 门控循环单元GRU
并不是真正的隐藏状态,而是候选的隐藏状态。假设不看,类似于之前的RNN计算隐藏层但现在加入了一个,用代表对元素进行乘法;因为和的长度相同,可以按元素做乘法且值域在(0,1)之间,假设中的元素更靠近“0”,那么运算后的结果更靠近“0”,等于把上一时刻的隐藏状态忘记;假设中的元素更靠近“1”,那么运算结果更靠近“1”,等价于RNN做运算的结果。可以根据前面的信息进行学习,决定信息可以丢弃或保留,是一个控制单元,被称为"门"。因为值域在(0,1),代表可以在(0,1)之间做比较软的控制。
2024-11-04 17:16:49
814
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人