CVHub-CSDN博客

原创 TextCoT：多模态思维链提升文字密集图像理解

TextCoT 为文字密集的图像理解领域提供了一种新的视角和方法。通过利用LMMs的描述和定位能力，TextCoT 能够有效提取图像中的全局和局部视觉信息，从而提高问答任务的准确性。这项工作不仅展示了 TextCoT 的强大性能，也为未来研究提供了新的方向，即如何进一步发掘和利用 LMMs 在多模态理解方面的潜力。

2024-04-18 00:46:25 726

原创精度最高降幅60%！SOTA只是假象？CVPR2024 Highlight为你揭示CLIP和LLaVA-Next等模型“骗局”

ImageNet-D数据集包含来自113个数据类别的4835张图像，有着不同的背景（background）、纹理（texture）和材料（material）组成. 和以往的合成数据集相比，ImageNet-D图像质量更高，且生成更为灵活可控。实验结果表明，ImageNet-D数据集有效地降低state-of-art模型的测试准确率，降低幅度最高达60%，包括CLIP，MiniGPT-4和LLaVa-NeXT等。ImageNet-D从一个崭新的角度揭露了当前大模型的错误，有利于启发模型的进一步迭代。

2024-04-16 21:04:08 727

原创 CVPR 24-UG2 无人机多模态检测与追踪挑战赛正式开启！

参赛者需要根据传感器数据序列给出特定时间戳上的无人机位置数据并提交到赛事系统中，根据分类和预测精度得出最终的得分。比赛主要分为两个阶段算法开发阶段(Dry-run)和最终验证阶段(Testing)。在算法开发阶段（Dry-run）挑战赛提供一个有标签训练集和一个无标签的开发用数据集，参赛者需要在这一阶段完成开发模型，测试结果提交格式等任务。在最终验证阶段（Testing），挑战赛会发布一个最终数据集以验证参赛者的算法性能。

2024-04-16 21:02:19 743

原创具身智能之RT-H

例如，如果机器人在拿起一个物体时动作不正确，人类可以输入新的指令，如“向左移动手臂”或“更慢地旋转手腕”，以纠正机器人的动作。RT-H在高层次任务描述（task descriptions）和低层次动作（action）之间引入一个中间层，即语言动作（language motions），这些语言动作是用更细粒度的短语来描述机器人的低级动作，例如“向前移动手臂”或“向右旋转手臂”。RT-H模型不仅可以响应人类的纠正，还可以从这些纠正中学习，以改进其未来的行为。当人类提供纠正时，这些纠正被视为额外的训练数据。

2024-04-16 21:00:08 444

原创具身智能之RT2

做的事情和大致的思路其实和以前的RT-1, VIMA等模型没啥区别，本质上就是一种将预训练的 PaLM-E 等预训练的 VLM 大模型如何加进这些模型中，不过从VLM finetune、action token对齐text token是比较新的点限制：RT-2可以执行更加复杂的指令，这是因为从自然语言到动作能更容易被理解；但是不能泛化到新的行为上，因为网络上获取的数据只能帮助模型学会更多的视觉语义信息，无法学会新的行为由于机器人数据集总体量级很少，并且无法搜集机器人没有做过的行为。

2024-04-07 20:44:29 841

原创具身智能之RT1

RT-1是一个由Google开发的机器人学习模型，专注于提升机器人在真实世界任务中的泛化和实时控制能力。它结合了高效的Transformer架构和大规模数据集，能够处理多样化的任务并适应新环境。实验表明，RT-1在执行任务、泛化到新任务以及鲁棒性方面均优于现有模型，展现了其在机器人学习领域的潜力。最后，诚邀对具身智能和多模态大模型等前沿AI技术感兴趣的同学加入CVHub官方知识星球，获取每日最新相关技术进展，共同探讨和推动人工智能领域的创新发展。

2024-04-07 20:40:56 471

原创具身智能开篇

扯了这么多，那到底啥是机器人具身智能？是不是机器人长成人样的就是具身智能？回答是：否！具身具身，不是人形就表示具身，具身智能不是一定是人形机器人！！！只能说人形机器人是具身智能一个比较好的载体。具身的含义不是身体本身，而是与环境交互以及在环境中做事的整体需求和功能。按照上海交大卢策吾的举例，上图右上角有两只猫，一直猫被绑起来，只能看这个世界；另一只猫可以主动去走。被动的猫是一种旁观的智能，而主动的猫是具身的智能。到最后，这只旁观的猫失去了行走能力。

2024-04-07 20:33:25 1218

原创 UltraLight-VM-UNet

首先我们先来看下整体架构。UltraLight VM-UNet模型采用了U形的结构，这种结构通常包含一个编码器（用于提取图像特征）和一个解码器（用于根据提取的特征重建分割图）。模型的特点是其通道数设置为[8, 16, 24, 32, 48, 64]，这样的设计有助于在不同层次上捕捉图像的细节和上下文信息。模型的前三层使用传统的卷积模块来提取浅层特征，而后三层则采用了作者提出的Parallel Vision Mamba Layer（PVM Layer）来提取更深层次的特征。

2024-04-05 22:14:36 683

原创 Mamba入局遥感图像分割 | Samba: 首个基于SSM的遥感高分图像语义分割框架

本文介绍了Samba，一种基于Mamba的高分辨率遥感图像语义分割框架，标志着Mamba在该领域的首次应用。通过在LoveDA数据集上性能的评估，Samba超越了最先进的CNN-based和ViT-based的方法，设定了新的性能基准，并展示了Mamba架构在高分辨率遥感影像语义分割中的有效性和潜力。如果你对本文有任何的观点或疑问，欢迎评论区下方留言讨论。同时也欢迎对前沿AI技术感兴趣的同学扫添加微信好友: cv_huber，备注“交流学习”即可。

2024-04-05 22:13:38 1130

原创 NeurIPS 2023 | 深入探讨 Weight Decay 的前世今生和隐藏缺陷

因为它解决的是 Gradient Norm 的问题，而不是全部的问题。于是，花了一天时间，最终把 Gradient Norm 的 Upper Bound 和 Lower Bound 都和 Weight Decay 强度正相关的理论证明了一下，算是把 Weight Decay 过去被忽略的关于 gradient norm 理论补全了。特征值的大小和损失曲面的形状有关，top Hessian eigenvalues 表示 Hessian 矩阵中最大的特征值，因此反映了曲面在该方向上的曲率。

2024-04-01 23:54:15 763

原创 CVPR 2024 | 首个 DP + CLIP 的 Defocus 去模糊算法

在本文中，我们利用来自CLIP的模糊相关先验知识，研究了DP图像的端到端散焦去模糊。我们首先使用模糊感知和DP感知策略的集成来估计模糊图，然后在恢复DP图像之前使用估计的模糊图作为去模糊核。我们还提出了模糊感知和模糊加权损失，通过从CLIP中提取模糊知识，在训练过程中对DP图像的恢复进行正则化约束。在大量的实验中，我们的方法在定量和定性恢复性能上都大大优于过去的方法。在未来，提出的模糊图估计策略有望将CLIP应用和扩展到各种zero-shot立体视觉任务，我们希望这将激励今后的工作。

2024-04-01 23:44:48 900

原创 CVPR 2024 | PromptKD: 基于Prompt的视觉语言模型蒸馏新方法

本文介绍了一个用于视觉-语言模型的两阶段无监督提示蒸馏框架。该框架旨在通过使用未标记的领域数据，将大型CLIP教师模型的知识转移给轻量级CLIP学生模型，通过提示模仿。首先在领域少样本标记数据上对大型教师模型进行预训练，然后在大量未标记的领域数据上执行学生提示蒸馏。通过利用CLIP独特的解耦模态特性，我们提出重用预存的教师文本特征，并将其合并到学生图像编码器中，用于蒸馏和推理。通过对11个识别数据集进行的大量实验表明了我们方法的有效性。但是，蒸馏方法的有效性与通过未标记领域样本传递的知识密切相关。

2024-04-01 23:42:19 718

原创 DECO：卷积结构的反击，纯卷积Query-Based检测器超越DETR

本文旨在研究是否能够构建一种基于查询的端到端目标检测框架，而不采用复杂的Transformer架构。提出了一种名为Detection ConvNet（DECO）的新型检测框架，包括主干网络和卷积编码器-解码器结构。通过精心设计DECO编码器和引入一种新颖的机制，使DECO解码器能够通过卷积层实现目标查询和图像特征之间的交互。在COCO基准上与先前检测器进行了比较，尽管简单，DECO在检测准确度和运行速度方面取得了竞争性表现。

2024-04-01 23:38:52 733

原创 CVPR 2024 | 一种新颖的基于生成式的 OVD 检测范式：GenerateU

总体而言，GenerateU通过其生成式的方法和端到端的训练策略，为对象检测领域提供了一种新的解决方案，尤其适用于在推理时缺乏精确类别知识的场景。代码已在GitHub上公开，大家可以进一步探索和应用。

2024-04-01 23:33:25 749

原创 LocalMamba

在本文中，作者介绍了LocalMamba，一种新的视觉状态空间模型，它显著增强了对图像局部依赖关系的捕捉能力，同时保持了全局上下文理解。作者的方法利用了窗口化选择性扫描和扫描方向搜索，取得了显著优于现有模型的效果。在多个数据集和任务上的广泛实验已经证明了LocalMamba相较于传统卷积神经网络（CNN）和视觉 Transformer（ViTs）的优越性，为图像分类、目标检测和语义分割建立了新的基准。作者的研究强调了扫描机制在视觉状态空间模型中的重要性，并为高效和有效的状态空间建模研究开辟了新的途径。

2024-04-01 23:30:16 755

原创 2420年还在学YOLO和U-Net? 手把手教你如何基于Qwen-VL搭建一个多模态智能体！

SeeClick 将会在今年五月在维也纳召开的 LLMAgents @ ICLR 2024 Workshop 进行展示，欢迎大家前来围观~~~如果你也对多模态相关技术感兴趣，欢迎扫描屏幕下方二维码添加微信好友，备注“多模态学习”即可。

2024-04-01 23:27:12 955

原创 LongClip: 探索长文本的CLIP模型

总的来说，Long-CLIP是一个改进的视觉-语言预训练模型，它通过知识保留的位置上插值和主要成分匹配策略，有效解决了原始CLIP模型在处理长文本输入时的限制。这一模型不仅在长文本图像检索任务中表现出色，而且在零样本图像分类任务中保持了与原始CLIP相当的性能，同时还能以即插即用的方式增强图像生成任务中的长文本处理能力。最后，如果你对本文有任何的观点或疑问，欢迎评论区下方留言讨论。同时也欢迎对多模态相关技术感兴趣的同学扫描屏幕下方二维码添加微信好友，备注“多模态学习”即可。

2024-04-01 23:24:07 1082

原创 CVPR 2024 | 知识蒸馏中的Logit标准化：辅助logit-based KD算法稳定涨点

什么是知识蒸馏？2015年，Hinton[1]注意到深度学习模型变得越来越大，率先想到是否可以利用一个训练好的大模型（俗称Teacher、教师模型），教授一个小模型（俗称Student、学生模型）进行学习。以常见的分类问题举例，给定一个包含NNN个样本的图像分类数据集xnynn1Nxnxnynn1Nxn是其中第nnn个样本图像，yny_nyn是xnxn对应的标签（数据集如果有KKK个类，则yny_nyn。

2024-04-01 23:20:41 843

原创 LMa-UNet: 探索大kernel Mamba在医学图像分割上的潜力

本文首次探索了大kernel(window) Mamba块在医学图像分割上的潜力，为了充分利用大kernel Mamba的能力，我们设计了一种基于分层和双向的大window的Mamba块，增强SSM的表示建模能力。通过分层设计即PiM和PaM同时建模全局和局部关系，并结合UNet进行高效的医学图像分割。在多个器官数据集上的实验表明，大kernel(window) Mamba在医学图像分割任务中具有竞争力，并值得未来深入探索。最后，如果你对本文有任何的观点或疑问，欢迎评论区下方留言讨论。

2024-04-01 23:18:51 882

原创 AI标注神器 X-AnyLabeling-v2.3.0 发布！支持YOLOv8旋转目标检测、EdgeSAM、RTMO等热门模型！

2024-01-19 21:55:14 2157 5

原创超越 GLIP! | RegionSpot: 识别一切区域，多模态融合的开放世界物体识别新方法

简单来说，今天介绍的这篇文章主要贡献是提出了一种有效的多模态融合方法，用于改进图像中区域的语义理解，具有潜在的广泛应用前景。文中提出了将预训练的ViL模型与局部模型相结合的 RegionSpot 架构，以改进区域级别的视觉理解。RegionSpot 的方法旨在优化效率和数据利用方面具有卓越性，避免了从头开始训练的必要。通过大量实验证明，RegionSpot 在开放世界物体理解领域的性能明显优于 GLIP 等现有方法。

2023-11-22 21:48:17 237

原创 CNN 与 ViT 的完美结合 | TransXNet: 结合局部和全局注意力提供强大的归纳偏差和高效感受野

在这项工作中，作者提出了一种高效的D-Mixer，充分利用了OSRA和IDConv提供的混合特征提取。通过将基于D-Mixer的块堆叠到深度网络中，IDConv中的卷积核和OSRA中的注意力矩阵都是动态生成的，使用了前几个块中收集的局部和全局信息，从而增强了网络的表示能力，融入了强大的归纳偏差和扩展的有效感受野。此外，作者还引入了MS-FFN，用于在前馈网络中进行多尺度的Token聚合。通过交替使用D-Mixer和MS-FFN，作者构建了一种新型的混合网络，称为TransXNet。

2023-11-22 21:46:19 800

原创 WACV 2024 | SBCFormer: 面向端CPU设备的高效神经网络设计典范

本文提出了一种名为SBCFormer的新型深度网络架构，旨在在低端CPU上实现图像分类任务中准确度和计算速度的良好平衡。通过采用CNN-ViT混合结构，SBCFormer利用Transformer的注意力机制在单板计算机上实现了高精度和快速计算，特别适用于智能农业和畜牧管理等领域。然而，研究的局限性在于实验选择了特定的处理器，并以推理延迟为主要度量标准，这可能在不同环境下产生不同结果。因此，需要在更广泛的硬件和软件配置中进行进一步验证，以确保SBCFormer的性能鲁棒性和可扩展性。

2023-11-22 21:42:32 238

原创微软 Azure AI 团队新作 | Florence-2: 解锁视觉新境界，万能感知引领未来！

Florence 项目致力于开发一个基础的视觉模型，具有多样的感知能力，涵盖空间层次和语义粒度。为此，作者构建了 FLD-5B 数据集，其中包含了 126M 张图像，配对有由 Florence 数据引擎收集的 50B 全面的注释。随后，通过全面的多任务学习以统一的方式在这个丰富的数据集上对 Florence-2 进行预训练。Florence-2 展示出卓越的零样本能力，覆盖广泛的视觉任务，包括字幕生成、目标检测、视觉定位和引用分割等。

2023-11-22 21:39:51 227

原创 All in One | X-AnyLabeling v2.0.0 全自动标注工具强势登场，全新功能亮相，欢迎体验升级

X-AnyLalbeing 中同样提供了丰富的快捷键，极大提升标注效率。大家可根据自己的习惯通过修改当前设备的用户根目录下的#Linux#Windows默认的快捷键设置可以参考 github 主页示意图。对于中已提供的内置模型，可参考以下操作：创建配置文件进入项目工程，查看所需的配置文件查看配置文件配置文件需要遵循以下格式，以stride: 32classes:- person- bicycle- car...

2023-11-16 14:16:29 817 1

原创 CFINet：小目标检测新思路

特别地，已知的问题是先验框与目标区域之间的重叠较低，导致了优化的样本池受限，而区分性信息的匮乏进一步加剧了识别问题。然后，通过在传统的检测头部引入了一个特征模仿（FI）分支，以一种模仿的方式促进困扰模型的尺寸受限实例的区域表示。，这是一个针对小目标检测的两阶段框架，基于由粗到细的流程和特征模仿学习。首先，作者引入了粗到细RPN（CRPN），通过动态锚点选择策略和级联回归来确保小物体的足够高质量的。或相似性学习来缩小小物体与大物体之间的表示差距，但这些方法忽略了高质量与大尺寸、小尺寸与低质量之间的区别。

2023-11-04 23:19:30 272

原创 ICCV 2023 | 克服域差异：基于事件相机的自监督预训练策略

论文：《Event Camera Data Pre-training》链接：https://arxiv.org/abs/2301.01928代码：https://github.com/Yan98/Event-Camera-Data-Pre-training。

2023-11-04 23:18:27 125

原创 ICCV 2023 | 字节跳动 PICO 智能创作团队最新XR/VR研究工作分享

在不断发展的人工智能（AI）领域中，数据一直被视为最宝贵的资源之一。数据驱动的AI正以前所未有的方式塑造着未来，尤其在XR（扩展现实）领域，其中硬件和算法快速迭代。在这个领域，数据的效率、质量和可扩展性对于开发交互式AI算法至关重要。我们是交互数据实验室团队，负责构建以数据为中心的人工智能。在 XR（扩展现实）互动领域，高精度和强鲁棒性的3D互动是提供卓越用户体验的基础。这也意味着我们对支持算法模型的数据标签提出了更高的要求，包括更高的准确性和更好的泛化性能。在过去一年多的时间里，我们专注于解决数据相关的问

2023-11-04 23:16:53 175

原创 TPAMI 2023 | 生成式AI与图像合成综述

在第四章节，该综述汇集了多模态合成与编辑领域流行的数据集以及相应的模态标注，并且针对各模态典型任务（语义图像合成，文字到图像合成，语音引导图像编辑）对当前方法进行了定量的比较。在第三章节，根据图像合成与编辑的模型框架，该论文对目前的各种方法进行了分类，包括基于GAN的方法，扩散模型方法，自回归方法，和神经辐射场（NeRF）方法。在第五章节，该综述对此领域目前的挑战和未来方向进行了探讨和分析，包括大规模的多模态数据集，准确可靠的评估指标，高效的网络架构，以及3D感知的发展方向。

2023-11-04 23:14:23 94

原创 IJCAL 2023 | 基于美学策略引导的低光照图像增强方法

低光图像增强任务的首要目标是处理此类低质量图像中的低亮度、低对比度、噪声和伪影等问题，并使用传统方法或基于学习的方法来提高视觉质量并恢复更多的图像细节。此外，我们观察到图像美学质量评价与人类主观评价在一定程度上是一致的，因此我们尝试在训练中引入美学评价来代表人类主观视觉感知，以帮助提高低光图像增强任务的性能。由于人类对图像的修饰过程是一个动态且明确的渐进过程，与图像的当前状态因果密切相关，因此我们将 LLE 视为马尔可夫决策过程，将其分解为一系列迭代。的表现与所有可能动作的表现平均值之间的差异。

2023-11-04 23:13:25 92

原创基于语义对比学习的低光照图像增强网络

本文提出了一种有效的语义对比学习范式（SCL-LLE）来解决低光图像增强问题。SCL-LLE 揭示了如何使用非配对的负样本和正样本生成视觉上令人愉悦的图像，并说明了我们如何利用语义信息来保持输入和输出之间的视觉相似性。基于特征提取网络和语义分割网络，我们将图像增强视为多任务联合学习，其中SCL-LLE被转化为对比学习、语义亮度一致性和特征保留的三个约束，同时确保颜色、纹理和曝光的一致性。实验证明，我们的方法在六个跨域数据集上相对于现有最先进的LLE模型表现出明显的改进。

2023-11-04 23:11:22 181

原创 SparseBEV：高性能、全稀疏的纯视觉3D目标检测器

基于此，我们提出了高性能、全稀疏的 SparseBEV 模型。我们还提供了采样点的可视化（第一行是当前帧，二三两行是历史前两帧），可以看到，SparseBEV 的采样点精准捕捉到了场景中不同尺度的物体（即在空间上具备适应性），且对于不同运动速度的物体也能很好的对齐（即在时间上具备适应性）。在验证集的小规模的 Setting（ResNet50，704x256）下，SparseBEV 能取得 55.8 NDS 的性能，同时保持 23.5 FPS 的实时推理速度，充分发挥了 Sparse 设计带来的优势。

2023-11-04 22:59:54 290

空空如也

空空如也