多模态学习
文章平均质量分 92
CVHub
专注多模态视觉语言AI全栈知识分享,提供原创、多领域、有深度的前沿AI论文解读与工业成熟解决方案
展开
-
深度剖析现阶段的多模态大模型做不了医疗
多模态大模型是指能够同时处理和整合来自多种输入形式(如文本、图像、音频等)的大型机器学习模型。这些模型通过理解和生成多种形式的数据,能够执行跨模态任务,例如从图像生成描述性文本,或根据文本生成相关的图像。这类模型结合了视觉和语言理解能力,使得它们能够在多种应用场景中发挥作用,从而突破单一模态的限制,提供更加丰富和交互性强的用户体验。文章有点长,简单帮大家总结下:首先,对于微小目标识别,医疗影像中的微小病灶(如肺部结节)在图像中占比极小,要求模型具备极高的分辨能力;转载 2024-06-20 23:35:43 · 271 阅读 · 0 评论 -
TextCoT:多模态思维链提升文字密集图像理解
TextCoT 为文字密集的图像理解领域提供了一种新的视角和方法。通过利用LMMs的描述和定位能力,TextCoT 能够有效提取图像中的全局和局部视觉信息,从而提高问答任务的准确性。这项工作不仅展示了 TextCoT 的强大性能,也为未来研究提供了新的方向,即如何进一步发掘和利用 LMMs 在多模态理解方面的潜力。原创 2024-05-25 21:44:57 · 418 阅读 · 0 评论 -
TextCoT:多模态思维链提升文字密集图像理解
TextCoT 为文字密集的图像理解领域提供了一种新的视角和方法。通过利用LMMs的描述和定位能力,TextCoT 能够有效提取图像中的全局和局部视觉信息,从而提高问答任务的准确性。这项工作不仅展示了 TextCoT 的强大性能,也为未来研究提供了新的方向,即如何进一步发掘和利用 LMMs 在多模态理解方面的潜力。原创 2024-04-18 00:46:25 · 926 阅读 · 0 评论 -
CVPR 2024 | 首个 DP + CLIP 的 Defocus 去模糊算法
在本文中,我们利用来自CLIP的模糊相关先验知识,研究了DP图像的端到端散焦去模糊。我们首先使用模糊感知和DP感知策略的集成来估计模糊图,然后在恢复DP图像之前使用估计的模糊图作为去模糊核。我们还提出了模糊感知和模糊加权损失,通过从CLIP中提取模糊知识,在训练过程中对DP图像的恢复进行正则化约束。在大量的实验中,我们的方法在定量和定性恢复性能上都大大优于过去的方法。在未来,提出的模糊图估计策略有望将CLIP应用和扩展到各种zero-shot立体视觉任务,我们希望这将激励今后的工作。原创 2024-04-01 23:44:48 · 1600 阅读 · 0 评论 -
CVPR 2024 | PromptKD: 基于Prompt的视觉语言模型蒸馏新方法
本文介绍了一个用于视觉-语言模型的两阶段无监督提示蒸馏框架。该框架旨在通过使用未标记的领域数据,将大型CLIP教师模型的知识转移给轻量级CLIP学生模型,通过提示模仿。首先在领域少样本标记数据上对大型教师模型进行预训练,然后在大量未标记的领域数据上执行学生提示蒸馏。通过利用CLIP独特的解耦模态特性,我们提出重用预存的教师文本特征,并将其合并到学生图像编码器中,用于蒸馏和推理。通过对11个识别数据集进行的大量实验表明了我们方法的有效性。但是,蒸馏方法的有效性与通过未标记领域样本传递的知识密切相关。原创 2024-04-01 23:42:19 · 1384 阅读 · 0 评论 -
CVPR 2024 | 一种新颖的基于生成式的 OVD 检测范式:GenerateU
总体而言,GenerateU通过其生成式的方法和端到端的训练策略,为对象检测领域提供了一种新的解决方案,尤其适用于在推理时缺乏精确类别知识的场景。代码已在GitHub上公开,大家可以进一步探索和应用。原创 2024-04-01 23:33:25 · 1156 阅读 · 0 评论 -
LongClip: 探索长文本的CLIP模型
总的来说,Long-CLIP是一个改进的视觉-语言预训练模型,它通过知识保留的位置上插值和主要成分匹配策略,有效解决了原始CLIP模型在处理长文本输入时的限制。这一模型不仅在长文本图像检索任务中表现出色,而且在零样本图像分类任务中保持了与原始CLIP相当的性能,同时还能以即插即用的方式增强图像生成任务中的长文本处理能力。最后,如果你对本文有任何的观点或疑问,欢迎评论区下方留言讨论。同时也欢迎对多模态相关技术感兴趣的同学扫描屏幕下方二维码添加微信好友,备注“多模态学习”即可。原创 2024-04-01 23:24:07 · 2198 阅读 · 0 评论 -
超越 GLIP! | RegionSpot: 识别一切区域,多模态融合的开放世界物体识别新方法
简单来说,今天介绍的这篇文章主要贡献是提出了一种有效的多模态融合方法,用于改进图像中区域的语义理解,具有潜在的广泛应用前景。文中提出了将预训练的ViL模型与局部模型相结合的 RegionSpot 架构,以改进区域级别的视觉理解。RegionSpot 的方法旨在优化效率和数据利用方面具有卓越性,避免了从头开始训练的必要。通过大量实验证明,RegionSpot 在开放世界物体理解领域的性能明显优于 GLIP 等现有方法。原创 2023-11-22 21:48:17 · 304 阅读 · 0 评论 -
微软 Azure AI 团队新作 | Florence-2: 解锁视觉新境界,万能感知引领未来!
Florence 项目致力于开发一个基础的视觉模型,具有多样的感知能力,涵盖空间层次和语义粒度。为此,作者构建了 FLD-5B 数据集,其中包含了 126M 张图像,配对有由 Florence 数据引擎收集的 50B 全面的注释。随后,通过全面的多任务学习以统一的方式在这个丰富的数据集上对 Florence-2 进行预训练。Florence-2 展示出卓越的零样本能力,覆盖广泛的视觉任务,包括字幕生成、目标检测、视觉定位和引用分割等。原创 2023-11-22 21:39:51 · 1901 阅读 · 0 评论 -
中科大、字节新作 | UniDoc:面向统一的图文理解大模型
本文引入了一项新工作UniDoc,这是一种通用的大型多模态模型,用于同时进行文本检测、识别、识别和理解。通过提出的统一多模态指令调整,UniDoc 有效地利用了基于文本的任务之间的有益交互,不仅解决了现有大型多模态模型的缺点,而且还增强了其原有的功能。此外,为了实现 UniDoc,研究团队贡献了一个遵循数据集的大规模多模式指令。实验表明,UniDoc 在多个基准测试中设置了最先进的分数。原创 2023-09-09 10:44:50 · 538 阅读 · 0 评论 -
港中文联合上海AI Lab发布多模态(12种)学习统一框架:Meta-Transformer
将n个数据模态的输入空间表示为XX1X2XnXX1X2Xn,相应的标签空间为YY1Y2YnYY1Y2Yn。此外,我们假设对于每个模态iii都存在一个有效的参数空间Θi\Theta_iΘi,其中任何参数θi∈Θiθi∈Θi都可以用于处理来自该模态的数据xi∈Xixi∈Xi。我们说,Meta-Transformer的本质是找到一个共享的参数θ∗。原创 2023-08-13 00:23:43 · 434 阅读 · 0 评论 -
华人团队开源指令调优的InstructBLIP多模态大模型 | 横扫多项SOTA,看图&推理&问答&对话样样通!
为确保指令调整数据的多样性,作者收集了广泛可用的视觉语言数据集,并将它们转换为指令调整格式。如上图2所示,最终收集了11个任务类别和28个数据集,包括图像字幕、图像字幕阅读理解、视觉推理、图像问答、知识驱动的图像问答、图像问答阅读理解、图像问答生成、视频问答、视觉对话问答、图像分类和 LLaVA-Instruct-150K 数据集等。具体来说,对于D个数据集,每个数据集的大小为。是一个针对视觉语言指令微调的框架,旨在解决视觉语言任务中的挑战,并提供系统性的研究来提高模型对未见数据和任务的泛化能力。原创 2023-05-20 14:02:44 · 422 阅读 · 1 评论 -
CVPR 2023 | X-Decoder: 下一代通用视觉系统设计范式
本文提供了一种广义的解码器X-Decoder,能够无缝支持像素级和图像级视觉-语言理解的模型。通过简洁而通用的设计,X-Decoder 可以轻松地统一和支持通用分割、引用分割和视觉-语言任务,实现了强大的泛化能力和竞争性甚至是最先进的性能。作者希望这项工作能够为下一代通用视觉系统的设计提供启示,但就目前来看,X-Decoder论文介绍了Make-It-3D,这是一种新颖的两阶段的方法,可以从单个图像创建高保真度的三维内容。原创 2023-05-20 13:57:10 · 632 阅读 · 0 评论 -
上海人工智能实验室发布LLaMA-Adapter | 如何1小时训练你的多模态大模型用于下游任务
本文首发于微信公众号 CVHub,未经授权不得以任何形式售卖或私自转载到其它平台,违者必究!原创 2023-05-20 12:36:37 · 1626 阅读 · 0 评论 -
CVPR‘2023 | Cross-modal Adaptation: 基于 CLIP 的微调新范式
先进的实验结果证明了CLIP这一类的多模态模型的最优微调范式一定要利用跨模态的信息,这一点和单模态微调(例如prompting和adapter之于大语言模型)有显著的区别。我们认为文本模态对于小样本泛化任务有非常明显的帮助,因此后续工作应当着重研究如何利用更多的文本信息来提升图像分类的效果。在论文中我们还展示了我们方法在OOD测试集上,例如ImageNetV2和上的优越泛化性能。基于此,我们希望跨模态微调能够取代单模态微调,成为未来预训练模型的性能衡量基准。原创 2023-03-24 00:01:35 · 1533 阅读 · 2 评论 -
一招入魂 | CLIPPO:利用Transformer建立多模态模型新范式!
一招入魂 | CLIPPO:利用Transformer建立多模态模型新范式!原创 2023-02-17 23:07:13 · 550 阅读 · 0 评论