多模态模型专栏
文章平均质量分 93
多模态模型专栏
双木的木
种一棵树最好的时间是十年前,其次是现在。
展开
-
WeThinkIn | 从图像到视频:浅谈Video Diffusion Models背后的底层原理
Rocky最新发布Stable Diffusion 3和FLUX.1系列模型的深入浅出全维度解析文章原创 2024-10-25 17:40:03 · 989 阅读 · 0 评论 -
CV技术指南 | DetailCLIP 通过自蒸馏和像素级重建提升视觉语言模型的分割精度 !
在本文中,作者提出了DetailCLIP:一种面向细节的CLIP,以解决基于对比学习的视觉语言模型的局限性,尤其是在处理面向细节和细粒度任务(如分割)方面。尽管CLIP及其变体在图像和文本表示的整体对齐方面表现出色,但它们通常难以捕捉精确分割所必需的细粒度细节。为了解决这些问题,作者提出了一种新的框架,该框架采用自蒸馏和像素级重建损失的层次比较,并增强了一个基于注意力的标记删除机制。这种方法选择性地保留语义相关的标记,使模型能够专注于与作者的模型特定功能(包括文本处理、标记比较和图像重建)对齐的图像关键区域原创 2024-10-24 17:36:57 · 690 阅读 · 0 评论 -
菜鸟学Python | OpenAI canvas一夜封神!超强AI编码研究神器,ChatGPT再次颠覆人机交互!
ChatGPT横空出世以来,首次迎来界面史诗级升级!全新canvas界面,开启了人类与AI协作研究、编码的新时代,更代表着终极AGI人机交互形态。时隔两年,ChatGPT终迎来界面全新升级!原创 2024-10-15 09:30:53 · 449 阅读 · 0 评论 -
算法进阶 | 必知!大模型背后的6大核心技术!
大家好,今天我们一同来探讨一下那些大模型背后的核心技术!原创 2024-08-31 15:08:10 · 1080 阅读 · 0 评论 -
极市平台 | 语言图像模型大一统!Meta将Transformer和Diffusion融合,多模态AI王者登场
就在刚刚,Meta最新发布的Transfusion,能够训练生成文本和图像的统一模型了!完美融合Transformer和扩散领域之后,语言模型和图像大一统,又近了一步。也就是说,真正的多模态AI模型,可能很快就要来了!Transformer和Diffusion,终于有了一次出色的融合。自此,语言模型和图像生成大一统的时代,也就不远了!这背后,正是Meta最近发布的Transfusion——一种训练能够生成文本和图像模型的统一方法。原创 2024-08-27 17:37:05 · 1044 阅读 · 0 评论 -
OpenMMLab | 面向多样应用需求,书生·浦语2.5开源超轻量、高性能多种参数版本
在 2024 年 7 月 4 日的WAIC科学前沿主论坛上,上海人工智能实验室推出了书生·浦语系列模型的全新版本——InternLM2.5。相较于上一代,InternLM2.5 全面增强了在复杂场景下的推理能力,支持 1M 超长上下文,能自主进行互联网搜索并从上百个网页中完成信息整合。原创 2024-08-10 22:16:28 · 1188 阅读 · 0 评论 -
集智书童 | 浙江大学 & 蚂蚁集团提出 PAI,一种无需训练减少 LVLM 幻觉的方法 !
现有的大型视觉-语言模型(LVLM)主要通过将视觉编码器的图像特征与大型语言模型(LLM)对齐,以利用它们卓越的文本生成能力。然而,视觉编码器与语言模型之间的规模差异可能导致LLM在多模态理解中占据主导地位。这种LVLM中的不平衡可能导致产生幻觉的实例。具体来说,LVLM可能在没有视觉输入的情况下生成一致的描述,这表明某些输出仅受上下文文本的影响。原创 2024-08-07 17:39:12 · 1107 阅读 · 0 评论 -
我爱计算机视觉 | Diffusion反馈强势助力CLIP秒变火眼金睛:北京智源研究院、中科院自动化所联合推出DIVA
本文分享论文Diffusion Feedback Helps CLIP See Better,专注于通过自监督学习范式解决CLIP无法区分细粒度视觉细节的问题。原创 2024-08-04 17:29:50 · 816 阅读 · 0 评论 -
程序员学长 | 快速学习一个算法,CLIP
今天给大家介绍一个强大的算法模型,CLIP。是一个由 OpenAI 开发的,它能够理解图像和相关文本之间的关系。CLIP 的核心思想是通过对比学习(Contrastive Learning)训练一个模型,使其能够将图像和描述性文本映射到同一个向量空间中。CLIP 模型的主要意义在于其跨模态学习能力,即能同时处理和理解图像及其文本描述。这种能力使得 CLIP 在处理视觉任务时不局限于固定的数据集和预定义的类别,而是能够理解在训练时未曾见过的概念或对象。原创 2024-08-03 22:36:14 · 1187 阅读 · 0 评论 -
AI算法与图像处理 | 吴恩达团队新作!多模态方向
研究结果表明,多样本上下文学习能够显著提高多模态基础模型的表现,尤其是 Gemini 1.5 Pro 模型在多个数据集上表现出持续的性能提升,使其能够更有效地适应新任务和新领域,而无需传统的微调。然而,受限于基础模型的上下文长度,尤其是对于需要大量视觉 token 来表示图片的多模态基础模型,已有的相关研究只局限于在上下文中提供少量样本。通过对多个领域和任务的数据集进行测试,团队验证了多样本上下文学习在提高模型性能方面的显著效果,并探讨了批量查询对性能和成本及延迟的影响。原创 2024-07-26 21:16:07 · 771 阅读 · 0 评论 -
小白玩转Python | 图像相似度比较之 CLIP or DINOv2(推荐阅读 ! )
在人工智能领域,计算机视觉的两大巨头是CLIP和DINOv2。CLIP改变了图像理解的方式,而DINOv2为自监督学习带来了新的方法。在本文中,我们将探索定义CLIP和DINOv2的强项和微妙之处的旅程。我们旨在发现这些模型中哪一个在图像相似度任务的世界中真正出色。让我们见证这两位巨头的较量,看看哪个模型胜出。原创 2024-06-11 18:28:27 · 1801 阅读 · 3 评论 -
江大白 | CLIP-Mamba开源,首次提出CLIP训练,仅1/5参数就达到Sort性能(附论文及源码)
作者首次尝试利用对比语言-图像预训练来训练可迁移的Mamba模型,并在大量数据集上进行了全面评估。作者发现,Mamba模型与视觉Transformer模型在零样本分类任务上表现相当,但参数更有效。在测试中,Mamba模型在处理对比度或高通滤波的OOD图像时表现出色。原创 2024-05-16 17:51:18 · 1380 阅读 · 0 评论 -
CVHub | CVPR 2024 | 英伟达发布新一代视觉基础模型: AM-RADIO = CLIP + DINOv2 + SAM
简单来说,AM-RADIO 是一个由英伟达提出的一个视觉基础模型框架,其集成了多个预训练的视觉基础模型如 CLIP、DINOv2及SAM 的能力,以获得强大的表征能力,同时也以几乎可以忽略不计的额外成本实现了SOTA级别的零样本分类或开集实例分割性能。原创 2024-05-14 22:01:09 · 1615 阅读 · 0 评论 -
Coggle数据科学 | Coggle 4月竞赛学习:多模态图文问答
在自然语言处理领域,大型语言模型(LLM)如GPT-3、BERT等已经取得了显著的进展,它们能够生成连贯、自然的文本,回答问题,并执行其他复杂的语言任务。但想要让大模型回答复杂问题,需要对原始内容进行深入的理解,比如对数据库进行解析、图像、语音等内容进行解析。原创 2024-04-21 18:08:12 · 1125 阅读 · 0 评论 -
极市平台 | 综述:一文详解50多种多模态图像融合方法
一般来说多模态感知融合在自动驾驶环境中的任务包括了经典的目标检测、语义分割、深度估计和深度预测这类的工作品。其实常见的任务也主要也还是语义分割和目标检测。文章很详细的为我们整理了当前多模态融合的一些工作以及一些未来发展的方向。其实我觉得我们需要一套合理化决策,而且成本较低的多模态融合框架,就需要我们对我们的数据更加的了解。此外我们也需要更多的数据。更多的分析成本的投入。像自监督、对比学习、大规模预训练这类型的赋能工作,直接一套或许也能取得很棒的成绩,但是这种核弹式的打击并不是优化工作的核心内容。原创 2024-04-08 17:12:36 · 1810 阅读 · 0 评论 -
计算机视觉研究院 | SuperYOLO:多模态遥感图像中的超分辨率辅助目标检测(附源代码)
准确及时地从遥感图像中检测包含数十个像素的多尺度小物体仍然具有挑战性。大多数现有的解决方案主要设计复杂的深度神经网络来学习与背景分离的对象的强特征表示,这通常会导致沉重的计算负担。在今天分享中,提出了一种精确而快速的RSI(remote sensing images)目标检测方法,称为SuperYOLO,该方法融合多模态数据,并利用辅助超分辨率(SR)学习,同时考虑检测精度和计算成本,对多尺度对象进行高分辨率(HR)对象检测。原创 2024-03-31 17:55:12 · 2639 阅读 · 0 评论
分享