自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

专注计算机视觉全栈知识分享

提供原创、多领域、有深度的前沿AI论文解读与工业成熟解决方案!

  • 博客(269)
  • 收藏
  • 关注

原创 打造全场景、跨领域、多模态的AI工作流 | 开源图像标注工具 X-AnyLabeling v2.4.0 正式发布!

X-AnyLabeling 是一款基于AI推理引擎和丰富功能特性于一体的强大辅助标注工具,其专注于实际应用,致力于为图像数据工程师提供工业级的一站式解决方案,可自动快速进行各种复杂任务的标定。

2024-08-27 00:26:45 723

转载 无关技术细节,聊聊这两年从事大语言模型的工作感悟

2024-08-23 21:46:58 21

原创 MICCAI STS 2024牙齿半监督分割挑战赛

在这里根据综述文献STS MICCAI 2023 Challenge: Grand challenge on 2D and 3D semi-supervised tooth segmentation给大家介绍一下去年STS 2023牙齿分割挑战赛的一些优秀的解决方案。具体来说,去年有434支团队注册了挑战,其中64支团队在最后阶段提交了有效结果。在满足进入最终阶段的所有标准的方法中,所有方法都基于深度学习方法进行,其中,伪标签生成方案是最常用的半监督策略——超过一半的团队采用。

2024-07-31 21:33:17 437

原创 推动虚拟试衣模型真正走向落地与应用!| 中山大学联合 Pixocia 提出 CatVTON: 一种更加轻量化的扩散模型架构

CatVTON 重新思考和设计了基于扩散模型的虚拟试穿框架,将多任务、多品类的虚拟试衣集成到同一模型中,以轻量化的框架和参数高效的训练策略实现了 SOTA 的试穿效果,降低了模型的训练、推理计算需求,推动了虚拟试衣模型走向落地与应用。如果你对本文有任何的观点或疑问,欢迎评论区下方留言讨论。同时也欢迎对前沿AI技术感兴趣的同学扫添加微信好友: cv_huber,备注“交流学习”即可。

2024-07-31 21:29:55 488

原创 大连理工卢湖川团队新作 | Spider: 开启图像统一分割新范式

References如果你对本文有任何的观点或疑问,欢迎评论区下方留言讨论。同时也欢迎对前沿AI技术感兴趣的同学扫添加微信好友: cv_huber,备注“交流学习”即可。

2024-07-31 21:28:41 389

原创 大连理工卢湖川团队新作 | Spider: 开启图像统一分割新范式

References如果你对本文有任何的观点或疑问,欢迎评论区下方留言讨论。同时也欢迎对前沿AI技术感兴趣的同学扫添加微信好友: cv_huber,备注“交流学习”即可。

2024-06-20 23:40:28 993

转载 深度剖析现阶段的多模态大模型做不了医疗

多模态大模型是指能够同时处理和整合来自多种输入形式(如文本、图像、音频等)的大型机器学习模型。这些模型通过理解和生成多种形式的数据,能够执行跨模态任务,例如从图像生成描述性文本,或根据文本生成相关的图像。这类模型结合了视觉和语言理解能力,使得它们能够在多种应用场景中发挥作用,从而突破单一模态的限制,提供更加丰富和交互性强的用户体验。文章有点长,简单帮大家总结下:首先,对于微小目标识别,医疗影像中的微小病灶(如肺部结节)在图像中占比极小,要求模型具备极高的分辨能力;

2024-06-20 23:35:43 152

原创 YOLOv10 正式发布!原理、部署、应用一站式齐全

遗憾的是,无论是 anchor-based 的“框分配”策略还是 anchor-free 的“点分配”策略,其始终会面临一个 many-to-one 的窘境,即对于一个 GT 框来说,会存在多个正样本与之对应。YOLOv10 作为一款实时端到端目标检测模型,其通过创新的双标签分配策略和架构改进,在保持高速检测的同时显著提升了准确性和效率,提供了多个模型规模以适应不同应用场景,并通过支持ONNX和TensorRT等格式的导出,便于在多种平台上部署和推理,值得尝试。

2024-05-25 21:45:39 10433 4

原创 TextCoT:多模态思维链提升文字密集图像理解

TextCoT 为文字密集的图像理解领域提供了一种新的视角和方法。通过利用LMMs的描述和定位能力,TextCoT 能够有效提取图像中的全局和局部视觉信息,从而提高问答任务的准确性。这项工作不仅展示了 TextCoT 的强大性能,也为未来研究提供了新的方向,即如何进一步发掘和利用 LMMs 在多模态理解方面的潜力。

2024-05-25 21:44:57 378

原创 TextCoT:多模态思维链提升文字密集图像理解

TextCoT 为文字密集的图像理解领域提供了一种新的视角和方法。通过利用LMMs的描述和定位能力,TextCoT 能够有效提取图像中的全局和局部视觉信息,从而提高问答任务的准确性。这项工作不仅展示了 TextCoT 的强大性能,也为未来研究提供了新的方向,即如何进一步发掘和利用 LMMs 在多模态理解方面的潜力。

2024-04-18 00:46:25 852

原创 精度最高降幅60%!SOTA只是假象?CVPR2024 Highlight为你揭示CLIP和LLaVA-Next等模型“骗局”

ImageNet-D数据集包含来自113个数据类别的4835张图像,有着不同的背景(background)、纹理(texture)和材料(material)组成. 和以往的合成数据集相比,ImageNet-D图像质量更高,且生成更为灵活可控。实验结果表明,ImageNet-D数据集有效地降低state-of-art模型的测试准确率,降低幅度最高达60%,包括CLIP,MiniGPT-4和LLaVa-NeXT等。ImageNet-D从一个崭新的角度揭露了当前大模型的错误,有利于启发模型的进一步迭代。

2024-04-16 21:04:08 817

原创 CVPR 24-UG2 无人机多模态检测与追踪挑战赛正式开启!

参赛者需要根据传感器数据序列给出特定时间戳上的无人机位置数据并提交到赛事系统中,根据分类和预测精度得出最终的得分。比赛主要分为两个阶段 算法开发阶段(Dry-run)和最终验证阶段(Testing)。在算法开发阶段(Dry-run)挑战赛提供一个有标签训练集和一个无标签的开发用数据集,参赛者需要在这一阶段完成开发模型,测试结果提交格式等任务。在最终验证阶段(Testing),挑战赛会发布一个最终数据集以验证参赛者的算法性能。

2024-04-16 21:02:19 1044

原创 具身智能之RT-H

例如,如果机器人在拿起一个物体时动作不正确,人类可以输入新的指令,如“向左移动手臂”或“更慢地旋转手腕”,以纠正机器人的动作。RT-H在高层次任务描述(task descriptions)和低层次动作(action)之间引入一个中间层,即语言动作(language motions),这些语言动作是用更细粒度的短语来描述机器人的低级动作,例如“向前移动手臂”或“向右旋转手臂”。RT-H模型不仅可以响应人类的纠正,还可以从这些纠正中学习,以改进其未来的行为。当人类提供纠正时,这些纠正被视为额外的训练数据。

2024-04-16 21:00:08 552

原创 具身智能之RT2

做的事情和大致的思路其实和以前的RT-1, VIMA等模型没啥区别,本质上就是一种将预训练的 PaLM-E 等预训练的 VLM 大模型如何加进这些模型中,不过从VLM finetune、action token对齐text token是比较新的点限制:RT-2可以执行更加复杂的指令,这是因为从自然语言到动作能更容易被理解;但是不能泛化到新的行为上,因为网络上获取的数据只能帮助模型学会更多的视觉语义信息,无法学会新的行为由于机器人数据集总体量级很少,并且无法搜集机器人没有做过的行为。

2024-04-07 20:44:29 956

原创 具身智能之RT1

RT-1是一个由Google开发的机器人学习模型,专注于提升机器人在真实世界任务中的泛化和实时控制能力。它结合了高效的Transformer架构和大规模数据集,能够处理多样化的任务并适应新环境。实验表明,RT-1在执行任务、泛化到新任务以及鲁棒性方面均优于现有模型,展现了其在机器人学习领域的潜力。最后,诚邀对具身智能和多模态大模型等前沿AI技术感兴趣的同学加入CVHub官方知识星球,获取每日最新相关技术进展,共同探讨和推动人工智能领域的创新发展。

2024-04-07 20:40:56 640

原创 具身智能开篇

扯了这么多,那到底啥是机器人具身智能?是不是机器人长成人样的就是具身智能?回答是:否!具身具身,不是人形就表示具身,具身智能不是一定是人形机器人!!!只能说人形机器人是具身智能一个比较好的载体。具身的含义不是身体本身,而是与环境交互以及在环境中做事的整体需求和功能。按照上海交大卢策吾的举例,上图右上角有两只猫,一直猫被绑起来,只能看这个世界;另一只猫可以主动去走。被动的猫是一种旁观的智能,而主动的猫是具身的智能。到最后,这只旁观的猫失去了行走能力。

2024-04-07 20:33:25 1384

原创 UltraLight-VM-UNet

首先我们先来看下整体架构。UltraLight VM-UNet模型采用了U形的结构,这种结构通常包含一个编码器(用于提取图像特征)和一个解码器(用于根据提取的特征重建分割图)。模型的特点是其通道数设置为[8, 16, 24, 32, 48, 64],这样的设计有助于在不同层次上捕捉图像的细节和上下文信息。模型的前三层使用传统的卷积模块来提取浅层特征,而后三层则采用了作者提出的Parallel Vision Mamba Layer(PVM Layer)来提取更深层次的特征。

2024-04-05 22:14:36 890

原创 Mamba入局遥感图像分割 | Samba: 首个基于SSM的遥感高分图像语义分割框架

本文介绍了Samba,一种基于Mamba的高分辨率遥感图像语义分割框架,标志着Mamba在该领域的首次应用。通过在LoveDA数据集上性能的评估,Samba超越了最先进的CNN-based和ViT-based的方法,设定了新的性能基准,并展示了Mamba架构在高分辨率遥感影像语义分割中的有效性和潜力。如果你对本文有任何的观点或疑问,欢迎评论区下方留言讨论。同时也欢迎对前沿AI技术感兴趣的同学扫添加微信好友: cv_huber,备注“交流学习”即可。

2024-04-05 22:13:38 1486

原创 NeurIPS 2023 | 深入探讨 Weight Decay 的前世今生和隐藏缺陷

因为它解决的是 Gradient Norm 的问题,而不是全部的问题。于是,花了一天时间,最终把 Gradient Norm 的 Upper Bound 和 Lower Bound 都和 Weight Decay 强度正相关的理论证明了一下,算是把 Weight Decay 过去被忽略的关于 gradient norm 理论补全了。特征值的大小和损失曲面的形状有关,top Hessian eigenvalues 表示 Hessian 矩阵中最大的特征值,因此反映了曲面在该方向上的曲率。

2024-04-01 23:54:15 839

原创 CVPR 2024 | 首个 DP + CLIP 的 Defocus 去模糊算法

在本文中,我们利用来自CLIP的模糊相关先验知识,研究了DP图像的端到端散焦去模糊。我们首先使用模糊感知和DP感知策略的集成来估计模糊图,然后在恢复DP图像之前使用估计的模糊图作为去模糊核。我们还提出了模糊感知和模糊加权损失,通过从CLIP中提取模糊知识,在训练过程中对DP图像的恢复进行正则化约束。在大量的实验中,我们的方法在定量和定性恢复性能上都大大优于过去的方法。在未来,提出的模糊图估计策略有望将CLIP应用和扩展到各种zero-shot立体视觉任务,我们希望这将激励今后的工作。

2024-04-01 23:44:48 1345

原创 CVPR 2024 | PromptKD: 基于Prompt的视觉语言模型蒸馏新方法

本文介绍了一个用于视觉-语言模型的两阶段无监督提示蒸馏框架。该框架旨在通过使用未标记的领域数据,将大型CLIP教师模型的知识转移给轻量级CLIP学生模型,通过提示模仿。首先在领域少样本标记数据上对大型教师模型进行预训练,然后在大量未标记的领域数据上执行学生提示蒸馏。通过利用CLIP独特的解耦模态特性,我们提出重用预存的教师文本特征,并将其合并到学生图像编码器中,用于蒸馏和推理。通过对11个识别数据集进行的大量实验表明了我们方法的有效性。但是,蒸馏方法的有效性与通过未标记领域样本传递的知识密切相关。

2024-04-01 23:42:19 1202

原创 DECO:卷积结构的反击,纯卷积Query-Based检测器超越DETR

本文旨在研究是否能够构建一种基于查询的端到端目标检测框架,而不采用复杂的Transformer架构。提出了一种名为Detection ConvNet(DECO)的新型检测框架,包括主干网络和卷积编码器-解码器结构。通过精心设计DECO编码器和引入一种新颖的机制,使DECO解码器能够通过卷积层实现目标查询和图像特征之间的交互。在COCO基准上与先前检测器进行了比较,尽管简单,DECO在检测准确度和运行速度方面取得了竞争性表现。

2024-04-01 23:38:52 830 1

原创 CVPR 2024 | 一种新颖的基于生成式的 OVD 检测范式:GenerateU

总体而言,GenerateU通过其生成式的方法和端到端的训练策略,为对象检测领域提供了一种新的解决方案,尤其适用于在推理时缺乏精确类别知识的场景。代码已在GitHub上公开,大家可以进一步探索和应用。

2024-04-01 23:33:25 1061

原创 LocalMamba

在本文中,作者介绍了LocalMamba,一种新的视觉状态空间模型,它显著增强了对图像局部依赖关系的捕捉能力,同时保持了全局上下文理解。作者的方法利用了窗口化选择性扫描和扫描方向搜索,取得了显著优于现有模型的效果。在多个数据集和任务上的广泛实验已经证明了LocalMamba相较于传统卷积神经网络(CNN)和视觉 Transformer(ViTs)的优越性,为图像分类、目标检测和语义分割建立了新的基准。作者的研究强调了扫描机制在视觉状态空间模型中的重要性,并为高效和有效的状态空间建模研究开辟了新的途径。

2024-04-01 23:30:16 857

原创 2420年还在学YOLO和U-Net? 手把手教你如何基于Qwen-VL搭建一个多模态智能体!

SeeClick 将会在今年五月在维也纳召开的 LLMAgents @ ICLR 2024 Workshop 进行展示,欢迎大家前来围观~~~如果你也对多模态相关技术感兴趣,欢迎扫描屏幕下方二维码添加微信好友,备注“多模态学习”即可。

2024-04-01 23:27:12 1287

原创 LongClip: 探索长文本的CLIP模型

总的来说,Long-CLIP是一个改进的视觉-语言预训练模型,它通过知识保留的位置上插值和主要成分匹配策略,有效解决了原始CLIP模型在处理长文本输入时的限制。这一模型不仅在长文本图像检索任务中表现出色,而且在零样本图像分类任务中保持了与原始CLIP相当的性能,同时还能以即插即用的方式增强图像生成任务中的长文本处理能力。最后,如果你对本文有任何的观点或疑问,欢迎评论区下方留言讨论。同时也欢迎对多模态相关技术感兴趣的同学扫描屏幕下方二维码添加微信好友,备注“多模态学习”即可。

2024-04-01 23:24:07 1809

原创 CVPR 2024 | 知识蒸馏中的Logit标准化:辅助logit-based KD算法稳定涨点

什么是知识蒸馏?2015年,Hinton[1]注意到深度学习模型变得越来越大,率先想到是否可以利用一个训练好的大模型(俗称Teacher、教师模型),教授一个小模型(俗称Student、学生模型)进行学习。以常见的分类问题举例,给定一个包含NNN个样本的图像分类数据集xnynn1Nxnxn​yn​n1N​xn​是其中第nnn个样本图像,yny_nyn​是xnxn​对应的标签(数据集如果有KKK个类,则yny_nyn​。

2024-04-01 23:20:41 1075

原创 LMa-UNet: 探索大kernel Mamba在医学图像分割上的潜力

本文首次探索了大kernel(window) Mamba块在医学图像分割上的潜力,为了充分利用大kernel Mamba的能力,我们设计了一种基于分层和双向的大window的Mamba块,增强SSM的表示建模能力。通过分层设计即PiM和PaM同时建模全局和局部关系,并结合UNet进行高效的医学图像分割。在多个器官数据集上的实验表明,大kernel(window) Mamba在医学图像分割任务中具有竞争力,并值得未来深入探索。最后,如果你对本文有任何的观点或疑问,欢迎评论区下方留言讨论。

2024-04-01 23:18:51 1326

原创 AI标注神器 X-AnyLabeling-v2.3.0 发布!支持YOLOv8旋转目标检测、EdgeSAM、RTMO等热门模型!

2024-01-19 21:55:14 4275 9

原创 超越 GLIP! | RegionSpot: 识别一切区域,多模态融合的开放世界物体识别新方法

简单来说,今天介绍的这篇文章主要贡献是提出了一种有效的多模态融合方法,用于改进图像中区域的语义理解,具有潜在的广泛应用前景。文中提出了将预训练的ViL模型与局部模型相结合的 RegionSpot 架构,以改进区域级别的视觉理解。RegionSpot 的方法旨在优化效率和数据利用方面具有卓越性,避免了从头开始训练的必要。通过大量实验证明,RegionSpot 在开放世界物体理解领域的性能明显优于 GLIP 等现有方法。

2023-11-22 21:48:17 282

原创 CNN 与 ViT 的完美结合 | TransXNet: 结合局部和全局注意力提供强大的归纳偏差和高效感受野

在这项工作中,作者提出了一种高效的D-Mixer,充分利用了OSRA和IDConv提供的混合特征提取。通过将基于D-Mixer的块堆叠到深度网络中,IDConv中的卷积核和OSRA中的注意力矩阵都是动态生成的,使用了前几个块中收集的局部和全局信息,从而增强了网络的表示能力,融入了强大的归纳偏差和扩展的有效感受野。此外,作者还引入了MS-FFN,用于在前馈网络中进行多尺度的Token聚合。通过交替使用D-Mixer和MS-FFN,作者构建了一种新型的混合网络,称为TransXNet。

2023-11-22 21:46:19 1126

原创 WACV 2024 | SBCFormer: 面向端CPU设备的高效神经网络设计典范

本文提出了一种名为SBCFormer的新型深度网络架构,旨在在低端CPU上实现图像分类任务中准确度和计算速度的良好平衡。通过采用CNN-ViT混合结构,SBCFormer利用Transformer的注意力机制在单板计算机上实现了高精度和快速计算,特别适用于智能农业和畜牧管理等领域。然而,研究的局限性在于实验选择了特定的处理器,并以推理延迟为主要度量标准,这可能在不同环境下产生不同结果。因此,需要在更广泛的硬件和软件配置中进行进一步验证,以确保SBCFormer的性能鲁棒性和可扩展性。

2023-11-22 21:42:32 316

原创 微软 Azure AI 团队新作 | Florence-2: 解锁视觉新境界,万能感知引领未来!

Florence 项目致力于开发一个基础的视觉模型,具有多样的感知能力,涵盖空间层次和语义粒度。为此,作者构建了 FLD-5B 数据集,其中包含了 126M 张图像,配对有由 Florence 数据引擎收集的 50B 全面的注释。随后,通过全面的多任务学习以统一的方式在这个丰富的数据集上对 Florence-2 进行预训练。Florence-2 展示出卓越的零样本能力,覆盖广泛的视觉任务,包括字幕生成、目标检测、视觉定位和引用分割等。

2023-11-22 21:39:51 1656

原创 All in One | X-AnyLabeling v2.0.0 全自动标注工具强势登场,全新功能亮相,欢迎体验升级

X-AnyLalbeing 中同样提供了丰富的快捷键,极大提升标注效率。大家可根据自己的习惯通过修改当前设备的用户根目录下的#Linux#Windows默认的快捷键设置可以参考 github 主页示意图。对于中已提供的内置模型,可参考以下操作:创建配置文件进入项目工程,查看所需的配置文件查看配置文件配置文件需要遵循以下格式,以stride: 32classes:- person- bicycle- car...

2023-11-16 14:16:29 1317 1

原创 CFINet:小目标检测新思路

特别地,已知的问题是先验框与目标区域之间的重叠较低,导致了优化的样本池受限,而区分性信息的匮乏进一步加剧了识别问题。然后,通过在传统的检测头部引入了一个特征模仿(FI)分支,以一种模仿的方式促进困扰模型的尺寸受限实例的区域表示。,这是一个针对小目标检测的两阶段框架,基于由粗到细的流程和特征模仿学习。首先,作者引入了粗到细RPN(CRPN),通过动态锚点选择策略和级联回归来确保小物体的足够高质量的。或相似性学习来缩小小物体与大物体之间的表示差距,但这些方法忽略了高质量与大尺寸、小尺寸与低质量之间的区别。

2023-11-04 23:19:30 360

原创 ICCV 2023 | 克服域差异:基于事件相机的自监督预训练策略

论文:《Event Camera Data Pre-training》链接:https://arxiv.org/abs/2301.01928代码:https://github.com/Yan98/Event-Camera-Data-Pre-training。

2023-11-04 23:18:27 168

原创 ICCV 2023 | 字节跳动 PICO 智能创作团队最新XR/VR研究工作分享

在不断发展的人工智能(AI)领域中,数据一直被视为最宝贵的资源之一。数据驱动的AI正以前所未有的方式塑造着未来,尤其在XR(扩展现实)领域,其中硬件和算法快速迭代。在这个领域,数据的效率、质量和可扩展性对于开发交互式AI算法至关重要。我们是交互数据实验室团队,负责构建以数据为中心的人工智能。在 XR(扩展现实)互动领域,高精度和强鲁棒性的3D互动是提供卓越用户体验的基础。这也意味着我们对支持算法模型的数据标签提出了更高的要求,包括更高的准确性和更好的泛化性能。在过去一年多的时间里,我们专注于解决数据相关的问

2023-11-04 23:16:53 228

原创 TPAMI 2023 | 生成式AI与图像合成综述

在第四章节,该综述汇集了多模态合成与编辑领域流行的数据集以及相应的模态标注,并且针对各模态典型任务(语义图像合成,文字到图像合成,语音引导图像编辑)对当前方法进行了定量的比较。在第三章节,根据图像合成与编辑的模型框架,该论文对目前的各种方法进行了分类,包括基于GAN的方法,扩散模型方法,自回归方法,和神经辐射场(NeRF)方法。在第五章节,该综述对此领域目前的挑战和未来方向进行了探讨和分析,包括大规模的多模态数据集,准确可靠的评估指标,高效的网络架构,以及3D感知的发展方向。

2023-11-04 23:14:23 128

原创 IJCAL 2023 | 基于美学策略引导的低光照图像增强方法

低光图像增强任务的首要目标是处理此类低质量图像中的低亮度、低对比度、噪声和伪影等问题,并使用传统方法或基于学习的方法来提高视觉质量并恢复更多的图像细节。此外,我们观察到图像美学质量评价与人类主观评价在一定程度上是一致的,因此我们尝试在训练中引入美学评价来代表人类主观视觉感知,以帮助提高低光图像增强任务的性能。由于人类对图像的修饰过程是一个动态且明确的渐进过程,与图像的当前状态因果密切相关,因此我们将 LLE 视为马尔可夫决策过程,将其分解为一系列迭代。的表现与所有可能动作的表现平均值之间的差异。

2023-11-04 23:13:25 125

原创 基于语义对比学习的低光照图像增强网络

本文提出了一种有效的语义对比学习范式(SCL-LLE)来解决低光图像增强问题。SCL-LLE 揭示了如何使用非配对的负样本和正样本生成视觉上令人愉悦的图像,并说明了我们如何利用语义信息来保持输入和输出之间的视觉相似性。基于特征提取网络和语义分割网络,我们将图像增强视为多任务联合学习,其中SCL-LLE被转化为对比学习、语义亮度一致性和特征保留的三个约束,同时确保颜色、纹理和曝光的一致性。实验证明,我们的方法在六个跨域数据集上相对于现有最先进的LLE模型表现出明显的改进。

2023-11-04 23:11:22 277

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除