多模态模型专栏
文章平均质量分 94
多模态模型专栏
双木的木
种一棵树最好的时间是十年前,其次是现在。
展开
-
OpenMMLab | 面向多样应用需求,书生·浦语2.5开源超轻量、高性能多种参数版本
在 2024 年 7 月 4 日的WAIC科学前沿主论坛上,上海人工智能实验室推出了书生·浦语系列模型的全新版本——InternLM2.5。相较于上一代,InternLM2.5 全面增强了在复杂场景下的推理能力,支持 1M 超长上下文,能自主进行互联网搜索并从上百个网页中完成信息整合。原创 2024-08-10 22:16:28 · 1091 阅读 · 0 评论 -
集智书童 | 浙江大学 & 蚂蚁集团提出 PAI,一种无需训练减少 LVLM 幻觉的方法 !
现有的大型视觉-语言模型(LVLM)主要通过将视觉编码器的图像特征与大型语言模型(LLM)对齐,以利用它们卓越的文本生成能力。然而,视觉编码器与语言模型之间的规模差异可能导致LLM在多模态理解中占据主导地位。这种LVLM中的不平衡可能导致产生幻觉的实例。具体来说,LVLM可能在没有视觉输入的情况下生成一致的描述,这表明某些输出仅受上下文文本的影响。原创 2024-08-07 17:39:12 · 1007 阅读 · 0 评论 -
我爱计算机视觉 | Diffusion反馈强势助力CLIP秒变火眼金睛:北京智源研究院、中科院自动化所联合推出DIVA
本文分享论文Diffusion Feedback Helps CLIP See Better,专注于通过自监督学习范式解决CLIP无法区分细粒度视觉细节的问题。原创 2024-08-04 17:29:50 · 758 阅读 · 0 评论 -
程序员学长 | 快速学习一个算法,CLIP
今天给大家介绍一个强大的算法模型,CLIP。是一个由 OpenAI 开发的,它能够理解图像和相关文本之间的关系。CLIP 的核心思想是通过对比学习(Contrastive Learning)训练一个模型,使其能够将图像和描述性文本映射到同一个向量空间中。CLIP 模型的主要意义在于其跨模态学习能力,即能同时处理和理解图像及其文本描述。这种能力使得 CLIP 在处理视觉任务时不局限于固定的数据集和预定义的类别,而是能够理解在训练时未曾见过的概念或对象。原创 2024-08-03 22:36:14 · 900 阅读 · 0 评论 -
AI算法与图像处理 | 吴恩达团队新作!多模态方向
研究结果表明,多样本上下文学习能够显著提高多模态基础模型的表现,尤其是 Gemini 1.5 Pro 模型在多个数据集上表现出持续的性能提升,使其能够更有效地适应新任务和新领域,而无需传统的微调。然而,受限于基础模型的上下文长度,尤其是对于需要大量视觉 token 来表示图片的多模态基础模型,已有的相关研究只局限于在上下文中提供少量样本。通过对多个领域和任务的数据集进行测试,团队验证了多样本上下文学习在提高模型性能方面的显著效果,并探讨了批量查询对性能和成本及延迟的影响。原创 2024-07-26 21:16:07 · 681 阅读 · 0 评论 -
小白玩转Python | 图像相似度比较之 CLIP or DINOv2(推荐阅读 ! )
在人工智能领域,计算机视觉的两大巨头是CLIP和DINOv2。CLIP改变了图像理解的方式,而DINOv2为自监督学习带来了新的方法。在本文中,我们将探索定义CLIP和DINOv2的强项和微妙之处的旅程。我们旨在发现这些模型中哪一个在图像相似度任务的世界中真正出色。让我们见证这两位巨头的较量,看看哪个模型胜出。原创 2024-06-11 18:28:27 · 1390 阅读 · 0 评论 -
江大白 | CLIP-Mamba开源,首次提出CLIP训练,仅1/5参数就达到Sort性能(附论文及源码)
作者首次尝试利用对比语言-图像预训练来训练可迁移的Mamba模型,并在大量数据集上进行了全面评估。作者发现,Mamba模型与视觉Transformer模型在零样本分类任务上表现相当,但参数更有效。在测试中,Mamba模型在处理对比度或高通滤波的OOD图像时表现出色。原创 2024-05-16 17:51:18 · 1160 阅读 · 0 评论 -
CVHub | CVPR 2024 | 英伟达发布新一代视觉基础模型: AM-RADIO = CLIP + DINOv2 + SAM
简单来说,AM-RADIO 是一个由英伟达提出的一个视觉基础模型框架,其集成了多个预训练的视觉基础模型如 CLIP、DINOv2及SAM 的能力,以获得强大的表征能力,同时也以几乎可以忽略不计的额外成本实现了SOTA级别的零样本分类或开集实例分割性能。原创 2024-05-14 22:01:09 · 1125 阅读 · 0 评论 -
Coggle数据科学 | Coggle 4月竞赛学习:多模态图文问答
在自然语言处理领域,大型语言模型(LLM)如GPT-3、BERT等已经取得了显著的进展,它们能够生成连贯、自然的文本,回答问题,并执行其他复杂的语言任务。但想要让大模型回答复杂问题,需要对原始内容进行深入的理解,比如对数据库进行解析、图像、语音等内容进行解析。原创 2024-04-21 18:08:12 · 936 阅读 · 0 评论 -
极市平台 | 综述:一文详解50多种多模态图像融合方法
一般来说多模态感知融合在自动驾驶环境中的任务包括了经典的目标检测、语义分割、深度估计和深度预测这类的工作品。其实常见的任务也主要也还是语义分割和目标检测。文章很详细的为我们整理了当前多模态融合的一些工作以及一些未来发展的方向。其实我觉得我们需要一套合理化决策,而且成本较低的多模态融合框架,就需要我们对我们的数据更加的了解。此外我们也需要更多的数据。更多的分析成本的投入。像自监督、对比学习、大规模预训练这类型的赋能工作,直接一套或许也能取得很棒的成绩,但是这种核弹式的打击并不是优化工作的核心内容。原创 2024-04-08 17:12:36 · 1672 阅读 · 0 评论 -
计算机视觉研究院 | SuperYOLO:多模态遥感图像中的超分辨率辅助目标检测(附源代码)
准确及时地从遥感图像中检测包含数十个像素的多尺度小物体仍然具有挑战性。大多数现有的解决方案主要设计复杂的深度神经网络来学习与背景分离的对象的强特征表示,这通常会导致沉重的计算负担。在今天分享中,提出了一种精确而快速的RSI(remote sensing images)目标检测方法,称为SuperYOLO,该方法融合多模态数据,并利用辅助超分辨率(SR)学习,同时考虑检测精度和计算成本,对多尺度对象进行高分辨率(HR)对象检测。原创 2024-03-31 17:55:12 · 1725 阅读 · 0 评论