![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
读论文
文章平均质量分 86
速读
hqy_240603
这个作者很懒,什么都没留下…
展开
-
MetaPoint_速读
这篇文章介绍了一种名为Meta-Point Learning and Refining的框架,用于实现类别不可知的姿势估计。该框架利用所谓的元点(meta-points)来提高姿势估计的准确性。通过渐进式可变形点解码器和松弛回归损失,该方法优于现有方法。文章重点讨论了如何利用元点改进类别不可知的姿势估计,以及可学习嵌入在捕获关键信息用于关键点预测中的作用。此外,渐进式可变形点解码器如何有助于更好地进行预测和监督也是文章的重要内容。原创 2024-07-08 22:03:38 · 629 阅读 · 0 评论 -
VADS_速读
这篇文章介绍了一种名为Visual-Augmented Dynamic Semantic Prototype (VADS)的方法,用于生成式零样本学习。VADS旨在通过将视觉增强知识整合到语义条件中,提升生成器学习准确的语义-视觉映射能力。该方法通过设计Visual-aware Domain Knowledge Learning模块和Vision-Oriented Semantic Updation模块,动态更新预定义的语义原型,从而改善对未见类别的泛化能力。原创 2024-07-02 21:57:01 · 868 阅读 · 0 评论 -
MOSE_速读
这篇文章主要介绍了一种名为Multi-level Online Sequential Experts (MOSE)的创新方法,用于推进在线持续学习。MOSE通过编排潜在专业知识和整合多级监督来解决在线持续学习的挑战。该方法利用反向自蒸馏技术,有效处理顺序到达的内容,与传统的持续学习方法有所不同。原创 2024-06-12 22:15:36 · 900 阅读 · 0 评论 -
tapir_速读
这篇文章介绍了一种名为TAPIR的新型跟踪模型,它结合了TAP-Net和PIPs两种现有架构的优点,实现了对视频中任意点的准确跟踪。TAPIR采用两阶段方法,首先进行匹配,然后进行细化,以实现卓越的跟踪性能。该模型在TAP-Vid基准测试中表现出色,能够快速推断长时间和高分辨率视频序列,同时还能从静态图像生成轨迹。通过对架构决策、超参数调整和视频预测等方面的深入分析,文章展示了TAPIR的创新之处并提供了开放源代码和预训练模型,以造福整个社区。原创 2024-06-12 17:12:17 · 826 阅读 · 0 评论 -
cotracker_速读
这篇文章介绍了一种名为CoTracker的创新性密集点跟踪器,旨在提高视频跟踪的性能。CoTracker利用不同轨迹之间的相关性,实现出色的长期跟踪性能。该跟踪器能够在单个GPU上同时跟踪70k个点,是视频跟踪领域的重要突破。文章还讨论了CoTracker与现有最先进方法的区别,介绍了其引入的技术创新以及如何提高跟踪的准确性和稳健性。原创 2024-06-12 16:54:15 · 900 阅读 · 0 评论 -
dino&dinov2
第一篇探索 ViT 模型在自监督学习领域的经典代表作。DINO 整体架构基于自蒸馏的范式进行构建,包含一个教师网络和学生网络。其中,学生网络学习从局部补丁预测图像中的全局特征,该补丁受动量教师网络嵌入的交叉熵损失的监督,同时进行居中和锐化以防止模式崩溃。第一个基于图像数据的 SSL 工作,一种用于在大型图像数据集上预训练图像编码器,以获得具有语义的视觉特征。这些特征可用于广泛的视觉任务,无需微调即可获得与有监督模型相当的性能。转载 2024-06-06 18:23:38 · 45 阅读 · 0 评论 -
HO-3D 数据集
/ 由于非刚体的追踪比较困难,所以看看刚体数据集。原创 2024-06-07 15:16:55 · 438 阅读 · 0 评论