- 博客(276)
- 收藏
- 关注
原创 NeurIPS 2024 | TextHarmony: 基于统一架构的视觉文本理解与生成模型
TextHarmony 作为 OCR 领域的多功能多模态生成模型,成功统一了视觉文本理解和生成任务。通过创新的 Slide-LoRA 技术,它有效解决了多模态生成中的模态不一致问题,在单一模型中实现了视觉与语言模态的和谐统一。TextHarmony 在视觉文字感知、理解、生成和编辑方面展现出卓越性能,为复杂的视觉文本交互任务开辟了新的可能性。这项研究不仅推动了 OCR 技术的进步,也为人工智能在理解和创造方面的发展提供了重要参考。
2024-10-27 23:55:10 857
原创 上海AI实验室推出DocLayout-YOLO: 速度精度绝佳的文档布局分析模型
总的来说,DocLayout-YOLO 不仅在速度上与单模态方法YOLOv10相匹配,而且在准确性上超越了所有现有方法,包括单模态和多模态方法。这表明DocLayout-YOLO在文档布局分析领域具有重要的应用潜力。最后,值得称赞的是,这项工作不仅在技术上取得了突破,作者们还提供了代码、数据和模型的开源链接,为文档布局分析领域的研究和实践提供了宝贵的资源,这使得研究者和开发者能够进一步探索和应用DocLayout-YOLO。欢迎关注 CVHub!持续为您更新高质量的AI文章解读!
2024-10-25 00:00:28 1051
原创 深度学习中如何为骨干网络选取“最佳“优化器?
本文探讨了计算机视觉中骨干网络设计和优化器选择之间的相互作用。我们揭示了骨干-优化器耦合偏差(BOCB)现象及其对视觉骨干网络潜在的限制,例如在下游任务中额外的微调时间和努力。我们还发现了不同网络设计和BOCB背后的基本原理,从而为未来的视觉骨干网络设计提供了指导。同时,基准测试结果和发布的代码为用户友好的部署和评估提供了参考。总体而言,我们旨在激励计算机视觉社区重新思考骨干网络和优化器之间的关系,在未来的研究中考虑BOCB,从而为更系统性的未来进步做出贡献。
2024-10-17 22:44:24 1000
原创 微信团队发布全新多模态大模型 POINTS: 简单高效又不失性能
POINTS 是微信团队开发的先进视觉语言模型,融合了多项创新技术。它采用保持纵横比的高分辨率动态显示(CATTY)、CapFusion 技术整合图像描述、双视觉编码器架构,并引入了基于 perplexity 的预训练数据筛选策略。POINTS 还利用 Individual Select 方法选择指令调优数据,并创新性地应用 Model Soup 技术来融合不同数据集训练的模型。
2024-10-16 23:26:44 970
原创 仅需一行代码!上交大联合腾讯优图提出 SaRA: 让‘懒惰‘参数重获新生的微调魔法
本文提出了 SaRA,一种新颖的参数高效微调方法,该方法充分利用了预训练模型中绝对值最小的无效参数。作者提出了一种基于核范数的低秩损失,以约束学习到的稀疏矩阵的秩,从而避免模型过拟合。此外,设计了一种渐进式参数调整策略,进一步提高了微调参数的有效性。最后,提出了一种新型的非结构化反向传播方法,大大节省了参数微调过程中的内存开销。大量实验证明了本文方法的有效性,它在保持预训练模型的先验信息的同时,实现了最佳的拟合能力。
2024-09-30 23:08:53 699
原创 Ultrylytics 官宣: YOLO11 全新发布!
总的来说,本次更新的 YOLO11 模型是基于 YOLOv8 开发的,网络结构方面整体变化不大,采用 C3K2 替换掉了原先的 C2 和 C3 块,并新增了一个类似于自注意力的特征增强模块——C2PSA。检测头部分延续了 YOLOv8,因此后处理解析步骤基本相同。根据社区的反馈,精度方面喜忧参半,欢迎添加WX: cv_huber,备注YOLO11一同加入 YOLO 学习讨论小组分享你的观点和看法吧~
2024-09-30 17:06:12 1427
原创 Segment Anything 2 (SAM2) in X-AnyLabeling: 构建快速精准的图像和视频标注对象分割工具
Segment Anything 2 (SAM2) in X-AnyLabeling: 构建快速精准的图像和视频标注对象分割工具
2024-09-07 19:49:03 1959
原创 打造全场景、跨领域、多模态的AI工作流 | 开源图像标注工具 X-AnyLabeling v2.4.0 正式发布!
X-AnyLabeling 是一款基于AI推理引擎和丰富功能特性于一体的强大辅助标注工具,其专注于实际应用,致力于为图像数据工程师提供工业级的一站式解决方案,可自动快速进行各种复杂任务的标定。
2024-08-27 00:26:45 1278 1
原创 MICCAI STS 2024牙齿半监督分割挑战赛
在这里根据综述文献STS MICCAI 2023 Challenge: Grand challenge on 2D and 3D semi-supervised tooth segmentation给大家介绍一下去年STS 2023牙齿分割挑战赛的一些优秀的解决方案。具体来说,去年有434支团队注册了挑战,其中64支团队在最后阶段提交了有效结果。在满足进入最终阶段的所有标准的方法中,所有方法都基于深度学习方法进行,其中,伪标签生成方案是最常用的半监督策略——超过一半的团队采用。
2024-07-31 21:33:17 665
原创 推动虚拟试衣模型真正走向落地与应用!| 中山大学联合 Pixocia 提出 CatVTON: 一种更加轻量化的扩散模型架构
CatVTON 重新思考和设计了基于扩散模型的虚拟试穿框架,将多任务、多品类的虚拟试衣集成到同一模型中,以轻量化的框架和参数高效的训练策略实现了 SOTA 的试穿效果,降低了模型的训练、推理计算需求,推动了虚拟试衣模型走向落地与应用。如果你对本文有任何的观点或疑问,欢迎评论区下方留言讨论。同时也欢迎对前沿AI技术感兴趣的同学扫添加微信好友: cv_huber,备注“交流学习”即可。
2024-07-31 21:29:55 596
原创 大连理工卢湖川团队新作 | Spider: 开启图像统一分割新范式
References如果你对本文有任何的观点或疑问,欢迎评论区下方留言讨论。同时也欢迎对前沿AI技术感兴趣的同学扫添加微信好友: cv_huber,备注“交流学习”即可。
2024-07-31 21:28:41 439
原创 大连理工卢湖川团队新作 | Spider: 开启图像统一分割新范式
References如果你对本文有任何的观点或疑问,欢迎评论区下方留言讨论。同时也欢迎对前沿AI技术感兴趣的同学扫添加微信好友: cv_huber,备注“交流学习”即可。
2024-06-20 23:40:28 1061
转载 深度剖析现阶段的多模态大模型做不了医疗
多模态大模型是指能够同时处理和整合来自多种输入形式(如文本、图像、音频等)的大型机器学习模型。这些模型通过理解和生成多种形式的数据,能够执行跨模态任务,例如从图像生成描述性文本,或根据文本生成相关的图像。这类模型结合了视觉和语言理解能力,使得它们能够在多种应用场景中发挥作用,从而突破单一模态的限制,提供更加丰富和交互性强的用户体验。文章有点长,简单帮大家总结下:首先,对于微小目标识别,医疗影像中的微小病灶(如肺部结节)在图像中占比极小,要求模型具备极高的分辨能力;
2024-06-20 23:35:43 271
原创 YOLOv10 正式发布!原理、部署、应用一站式齐全
遗憾的是,无论是 anchor-based 的“框分配”策略还是 anchor-free 的“点分配”策略,其始终会面临一个 many-to-one 的窘境,即对于一个 GT 框来说,会存在多个正样本与之对应。YOLOv10 作为一款实时端到端目标检测模型,其通过创新的双标签分配策略和架构改进,在保持高速检测的同时显著提升了准确性和效率,提供了多个模型规模以适应不同应用场景,并通过支持ONNX和TensorRT等格式的导出,便于在多种平台上部署和推理,值得尝试。
2024-05-25 21:45:39 18904 4
原创 TextCoT:多模态思维链提升文字密集图像理解
TextCoT 为文字密集的图像理解领域提供了一种新的视角和方法。通过利用LMMs的描述和定位能力,TextCoT 能够有效提取图像中的全局和局部视觉信息,从而提高问答任务的准确性。这项工作不仅展示了 TextCoT 的强大性能,也为未来研究提供了新的方向,即如何进一步发掘和利用 LMMs 在多模态理解方面的潜力。
2024-05-25 21:44:57 418
原创 TextCoT:多模态思维链提升文字密集图像理解
TextCoT 为文字密集的图像理解领域提供了一种新的视角和方法。通过利用LMMs的描述和定位能力,TextCoT 能够有效提取图像中的全局和局部视觉信息,从而提高问答任务的准确性。这项工作不仅展示了 TextCoT 的强大性能,也为未来研究提供了新的方向,即如何进一步发掘和利用 LMMs 在多模态理解方面的潜力。
2024-04-18 00:46:25 926
原创 精度最高降幅60%!SOTA只是假象?CVPR2024 Highlight为你揭示CLIP和LLaVA-Next等模型“骗局”
ImageNet-D数据集包含来自113个数据类别的4835张图像,有着不同的背景(background)、纹理(texture)和材料(material)组成. 和以往的合成数据集相比,ImageNet-D图像质量更高,且生成更为灵活可控。实验结果表明,ImageNet-D数据集有效地降低state-of-art模型的测试准确率,降低幅度最高达60%,包括CLIP,MiniGPT-4和LLaVa-NeXT等。ImageNet-D从一个崭新的角度揭露了当前大模型的错误,有利于启发模型的进一步迭代。
2024-04-16 21:04:08 848
原创 CVPR 24-UG2 无人机多模态检测与追踪挑战赛正式开启!
参赛者需要根据传感器数据序列给出特定时间戳上的无人机位置数据并提交到赛事系统中,根据分类和预测精度得出最终的得分。比赛主要分为两个阶段 算法开发阶段(Dry-run)和最终验证阶段(Testing)。在算法开发阶段(Dry-run)挑战赛提供一个有标签训练集和一个无标签的开发用数据集,参赛者需要在这一阶段完成开发模型,测试结果提交格式等任务。在最终验证阶段(Testing),挑战赛会发布一个最终数据集以验证参赛者的算法性能。
2024-04-16 21:02:19 1244
原创 具身智能之RT-H
例如,如果机器人在拿起一个物体时动作不正确,人类可以输入新的指令,如“向左移动手臂”或“更慢地旋转手腕”,以纠正机器人的动作。RT-H在高层次任务描述(task descriptions)和低层次动作(action)之间引入一个中间层,即语言动作(language motions),这些语言动作是用更细粒度的短语来描述机器人的低级动作,例如“向前移动手臂”或“向右旋转手臂”。RT-H模型不仅可以响应人类的纠正,还可以从这些纠正中学习,以改进其未来的行为。当人类提供纠正时,这些纠正被视为额外的训练数据。
2024-04-16 21:00:08 596
原创 具身智能之RT2
做的事情和大致的思路其实和以前的RT-1, VIMA等模型没啥区别,本质上就是一种将预训练的 PaLM-E 等预训练的 VLM 大模型如何加进这些模型中,不过从VLM finetune、action token对齐text token是比较新的点限制:RT-2可以执行更加复杂的指令,这是因为从自然语言到动作能更容易被理解;但是不能泛化到新的行为上,因为网络上获取的数据只能帮助模型学会更多的视觉语义信息,无法学会新的行为由于机器人数据集总体量级很少,并且无法搜集机器人没有做过的行为。
2024-04-07 20:44:29 1017
原创 具身智能之RT1
RT-1是一个由Google开发的机器人学习模型,专注于提升机器人在真实世界任务中的泛化和实时控制能力。它结合了高效的Transformer架构和大规模数据集,能够处理多样化的任务并适应新环境。实验表明,RT-1在执行任务、泛化到新任务以及鲁棒性方面均优于现有模型,展现了其在机器人学习领域的潜力。最后,诚邀对具身智能和多模态大模型等前沿AI技术感兴趣的同学加入CVHub官方知识星球,获取每日最新相关技术进展,共同探讨和推动人工智能领域的创新发展。
2024-04-07 20:40:56 729
原创 具身智能开篇
扯了这么多,那到底啥是机器人具身智能?是不是机器人长成人样的就是具身智能?回答是:否!具身具身,不是人形就表示具身,具身智能不是一定是人形机器人!!!只能说人形机器人是具身智能一个比较好的载体。具身的含义不是身体本身,而是与环境交互以及在环境中做事的整体需求和功能。按照上海交大卢策吾的举例,上图右上角有两只猫,一直猫被绑起来,只能看这个世界;另一只猫可以主动去走。被动的猫是一种旁观的智能,而主动的猫是具身的智能。到最后,这只旁观的猫失去了行走能力。
2024-04-07 20:33:25 1512
原创 UltraLight-VM-UNet
首先我们先来看下整体架构。UltraLight VM-UNet模型采用了U形的结构,这种结构通常包含一个编码器(用于提取图像特征)和一个解码器(用于根据提取的特征重建分割图)。模型的特点是其通道数设置为[8, 16, 24, 32, 48, 64],这样的设计有助于在不同层次上捕捉图像的细节和上下文信息。模型的前三层使用传统的卷积模块来提取浅层特征,而后三层则采用了作者提出的Parallel Vision Mamba Layer(PVM Layer)来提取更深层次的特征。
2024-04-05 22:14:36 945
原创 Mamba入局遥感图像分割 | Samba: 首个基于SSM的遥感高分图像语义分割框架
本文介绍了Samba,一种基于Mamba的高分辨率遥感图像语义分割框架,标志着Mamba在该领域的首次应用。通过在LoveDA数据集上性能的评估,Samba超越了最先进的CNN-based和ViT-based的方法,设定了新的性能基准,并展示了Mamba架构在高分辨率遥感影像语义分割中的有效性和潜力。如果你对本文有任何的观点或疑问,欢迎评论区下方留言讨论。同时也欢迎对前沿AI技术感兴趣的同学扫添加微信好友: cv_huber,备注“交流学习”即可。
2024-04-05 22:13:38 1587
原创 NeurIPS 2023 | 深入探讨 Weight Decay 的前世今生和隐藏缺陷
因为它解决的是 Gradient Norm 的问题,而不是全部的问题。于是,花了一天时间,最终把 Gradient Norm 的 Upper Bound 和 Lower Bound 都和 Weight Decay 强度正相关的理论证明了一下,算是把 Weight Decay 过去被忽略的关于 gradient norm 理论补全了。特征值的大小和损失曲面的形状有关,top Hessian eigenvalues 表示 Hessian 矩阵中最大的特征值,因此反映了曲面在该方向上的曲率。
2024-04-01 23:54:15 887
原创 CVPR 2024 | 首个 DP + CLIP 的 Defocus 去模糊算法
在本文中,我们利用来自CLIP的模糊相关先验知识,研究了DP图像的端到端散焦去模糊。我们首先使用模糊感知和DP感知策略的集成来估计模糊图,然后在恢复DP图像之前使用估计的模糊图作为去模糊核。我们还提出了模糊感知和模糊加权损失,通过从CLIP中提取模糊知识,在训练过程中对DP图像的恢复进行正则化约束。在大量的实验中,我们的方法在定量和定性恢复性能上都大大优于过去的方法。在未来,提出的模糊图估计策略有望将CLIP应用和扩展到各种zero-shot立体视觉任务,我们希望这将激励今后的工作。
2024-04-01 23:44:48 1600
原创 CVPR 2024 | PromptKD: 基于Prompt的视觉语言模型蒸馏新方法
本文介绍了一个用于视觉-语言模型的两阶段无监督提示蒸馏框架。该框架旨在通过使用未标记的领域数据,将大型CLIP教师模型的知识转移给轻量级CLIP学生模型,通过提示模仿。首先在领域少样本标记数据上对大型教师模型进行预训练,然后在大量未标记的领域数据上执行学生提示蒸馏。通过利用CLIP独特的解耦模态特性,我们提出重用预存的教师文本特征,并将其合并到学生图像编码器中,用于蒸馏和推理。通过对11个识别数据集进行的大量实验表明了我们方法的有效性。但是,蒸馏方法的有效性与通过未标记领域样本传递的知识密切相关。
2024-04-01 23:42:19 1384
原创 DECO:卷积结构的反击,纯卷积Query-Based检测器超越DETR
本文旨在研究是否能够构建一种基于查询的端到端目标检测框架,而不采用复杂的Transformer架构。提出了一种名为Detection ConvNet(DECO)的新型检测框架,包括主干网络和卷积编码器-解码器结构。通过精心设计DECO编码器和引入一种新颖的机制,使DECO解码器能够通过卷积层实现目标查询和图像特征之间的交互。在COCO基准上与先前检测器进行了比较,尽管简单,DECO在检测准确度和运行速度方面取得了竞争性表现。
2024-04-01 23:38:52 861 1
原创 CVPR 2024 | 一种新颖的基于生成式的 OVD 检测范式:GenerateU
总体而言,GenerateU通过其生成式的方法和端到端的训练策略,为对象检测领域提供了一种新的解决方案,尤其适用于在推理时缺乏精确类别知识的场景。代码已在GitHub上公开,大家可以进一步探索和应用。
2024-04-01 23:33:25 1156
原创 LocalMamba
在本文中,作者介绍了LocalMamba,一种新的视觉状态空间模型,它显著增强了对图像局部依赖关系的捕捉能力,同时保持了全局上下文理解。作者的方法利用了窗口化选择性扫描和扫描方向搜索,取得了显著优于现有模型的效果。在多个数据集和任务上的广泛实验已经证明了LocalMamba相较于传统卷积神经网络(CNN)和视觉 Transformer(ViTs)的优越性,为图像分类、目标检测和语义分割建立了新的基准。作者的研究强调了扫描机制在视觉状态空间模型中的重要性,并为高效和有效的状态空间建模研究开辟了新的途径。
2024-04-01 23:30:16 912
原创 2420年还在学YOLO和U-Net? 手把手教你如何基于Qwen-VL搭建一个多模态智能体!
SeeClick 将会在今年五月在维也纳召开的 LLMAgents @ ICLR 2024 Workshop 进行展示,欢迎大家前来围观~~~如果你也对多模态相关技术感兴趣,欢迎扫描屏幕下方二维码添加微信好友,备注“多模态学习”即可。
2024-04-01 23:27:12 1395
原创 LongClip: 探索长文本的CLIP模型
总的来说,Long-CLIP是一个改进的视觉-语言预训练模型,它通过知识保留的位置上插值和主要成分匹配策略,有效解决了原始CLIP模型在处理长文本输入时的限制。这一模型不仅在长文本图像检索任务中表现出色,而且在零样本图像分类任务中保持了与原始CLIP相当的性能,同时还能以即插即用的方式增强图像生成任务中的长文本处理能力。最后,如果你对本文有任何的观点或疑问,欢迎评论区下方留言讨论。同时也欢迎对多模态相关技术感兴趣的同学扫描屏幕下方二维码添加微信好友,备注“多模态学习”即可。
2024-04-01 23:24:07 2198
原创 CVPR 2024 | 知识蒸馏中的Logit标准化:辅助logit-based KD算法稳定涨点
什么是知识蒸馏?2015年,Hinton[1]注意到深度学习模型变得越来越大,率先想到是否可以利用一个训练好的大模型(俗称Teacher、教师模型),教授一个小模型(俗称Student、学生模型)进行学习。以常见的分类问题举例,给定一个包含NNN个样本的图像分类数据集xnynn1Nxnxnynn1Nxn是其中第nnn个样本图像,yny_nyn是xnxn对应的标签(数据集如果有KKK个类,则yny_nyn。
2024-04-01 23:20:41 1171
原创 LMa-UNet: 探索大kernel Mamba在医学图像分割上的潜力
本文首次探索了大kernel(window) Mamba块在医学图像分割上的潜力,为了充分利用大kernel Mamba的能力,我们设计了一种基于分层和双向的大window的Mamba块,增强SSM的表示建模能力。通过分层设计即PiM和PaM同时建模全局和局部关系,并结合UNet进行高效的医学图像分割。在多个器官数据集上的实验表明,大kernel(window) Mamba在医学图像分割任务中具有竞争力,并值得未来深入探索。最后,如果你对本文有任何的观点或疑问,欢迎评论区下方留言讨论。
2024-04-01 23:18:51 1524
原创 超越 GLIP! | RegionSpot: 识别一切区域,多模态融合的开放世界物体识别新方法
简单来说,今天介绍的这篇文章主要贡献是提出了一种有效的多模态融合方法,用于改进图像中区域的语义理解,具有潜在的广泛应用前景。文中提出了将预训练的ViL模型与局部模型相结合的 RegionSpot 架构,以改进区域级别的视觉理解。RegionSpot 的方法旨在优化效率和数据利用方面具有卓越性,避免了从头开始训练的必要。通过大量实验证明,RegionSpot 在开放世界物体理解领域的性能明显优于 GLIP 等现有方法。
2023-11-22 21:48:17 304
原创 CNN 与 ViT 的完美结合 | TransXNet: 结合局部和全局注意力提供强大的归纳偏差和高效感受野
在这项工作中,作者提出了一种高效的D-Mixer,充分利用了OSRA和IDConv提供的混合特征提取。通过将基于D-Mixer的块堆叠到深度网络中,IDConv中的卷积核和OSRA中的注意力矩阵都是动态生成的,使用了前几个块中收集的局部和全局信息,从而增强了网络的表示能力,融入了强大的归纳偏差和扩展的有效感受野。此外,作者还引入了MS-FFN,用于在前馈网络中进行多尺度的Token聚合。通过交替使用D-Mixer和MS-FFN,作者构建了一种新型的混合网络,称为TransXNet。
2023-11-22 21:46:19 1254
原创 WACV 2024 | SBCFormer: 面向端CPU设备的高效神经网络设计典范
本文提出了一种名为SBCFormer的新型深度网络架构,旨在在低端CPU上实现图像分类任务中准确度和计算速度的良好平衡。通过采用CNN-ViT混合结构,SBCFormer利用Transformer的注意力机制在单板计算机上实现了高精度和快速计算,特别适用于智能农业和畜牧管理等领域。然而,研究的局限性在于实验选择了特定的处理器,并以推理延迟为主要度量标准,这可能在不同环境下产生不同结果。因此,需要在更广泛的硬件和软件配置中进行进一步验证,以确保SBCFormer的性能鲁棒性和可扩展性。
2023-11-22 21:42:32 343
原创 微软 Azure AI 团队新作 | Florence-2: 解锁视觉新境界,万能感知引领未来!
Florence 项目致力于开发一个基础的视觉模型,具有多样的感知能力,涵盖空间层次和语义粒度。为此,作者构建了 FLD-5B 数据集,其中包含了 126M 张图像,配对有由 Florence 数据引擎收集的 50B 全面的注释。随后,通过全面的多任务学习以统一的方式在这个丰富的数据集上对 Florence-2 进行预训练。Florence-2 展示出卓越的零样本能力,覆盖广泛的视觉任务,包括字幕生成、目标检测、视觉定位和引用分割等。
2023-11-22 21:39:51 1901
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人