
多模态模型专栏
文章平均质量分 92
多模态模型专栏
双木的木
种一棵树最好的时间是十年前,其次是现在。
展开
-
AI生成未来 | 只需一张图,万物皆可插!Insert Anything开源啦!开创AI图像插入新时代|浙大&哈佛等(推荐收藏!)
本文提出统一框架Insert Anything,通过支持掩码/文本双引导模式突破专用方法局限。基于12万提示-图像对的AnyInsertion数据集和DiT架构,创新性地采用双联画/三联画提示策略实现上下文编辑机制,在保持身份特征的同时确保视觉协调性。三大基准测试表明,本方法在人物/物体/服装插入任务中全面超越现有技术,为基于参考的图像编辑树立新标杆,为实际创意应用提供通用解决方案。原创 2025-04-24 17:25:40 · 614 阅读 · 0 评论 -
kaggle竞赛宝典 | 10种竞赛数据预处理中的数据泄露模式解析
在机器学习教学实践中,我们常会遇到这样一个问题:"模型表现非常出色,准确率超过90%!但当将其提交到隐藏数据集进行测试时,效果却大打折扣。问题出在哪里?"这种情况几乎总是与数据泄露有关。当测试数据在数据准备阶段无意中泄露(渗透)到训练数据时,就会发生数据泄露。这种情况经常出现在常规数据处理任务中,而你可能并未察觉。当泄露发生时,模型会从本不应看到的测试数据中学习,导致测试结果失真。原创 2025-04-11 17:44:24 · 692 阅读 · 0 评论 -
AI算法与图像处理 | 月之暗面开源轻量级MoE多模态模型,支持推理,效果超过GPT-4o!
月之暗面最新开源了基于MoE架构的高效多模态模型Kimi-VL,它具有先进的多模态推理、长文本理解以及强大的agent能力,模型总参数为16B,但是推理时激活参数不到3B。原创 2025-04-11 17:09:54 · 878 阅读 · 0 评论 -
极市平台 | 让小模型也能有大作为!SANA 1.5:线性扩散Transformer再刷文生图新SOTA
把模型参数从 1.6B (20 blocks) 缩放到 4.8B (60 blocks),重用小模型的知识。不用从头开始训练模型。原创 2025-03-25 21:48:10 · 891 阅读 · 0 评论 -
Datawhale | 杭州六小龙最新开源「空间理解模型」,保姆级教程来了!
SpatialLM 是一款专门为三维空间理解设计的大语言模型,通过三维点云数据,生成结构化的三维场景理解输出,包括墙壁、门、窗等建筑元素,以及带有语义类别的定向物体边界框。与传统需要专用设备进行数据采集的方法不同,SpatialLM能够处理来自多种来源的点云数据,如:单目视频序列、RGBD图像和LiDAR传感器等。原创 2025-03-24 17:30:53 · 1072 阅读 · 0 评论 -
极市平台 | SimDINO | 借助编码比率正则化简化DINO并提升性能
这篇论文是来自 UC Berkeley、TranscEngram、Microsoft Research 等机构的 Ziyang Wu 等人撰写的 “Simplifying DINO via Coding Rate Regularization”,核心是提出 SimDINO 和 SimDINOv2 模型,通过编码率正则化简化 DINO 和 DINOv2 训练流程,并提升模型性能。原创 2025-03-22 20:45:53 · 960 阅读 · 0 评论 -
集智书童 | 电子科大提出Group-CLIP | CLIP跨界引爆群体识别,不确定性建模登顶SOTA,实现安防新突破!
群体再识别(Group ReID)旨在匹配跨非重叠摄像头的行人群体。与单人ReID不同,Group ReID更关注群体结构的变化,强调成员数量及其空间排列。然而,大多数方法依赖于基于确定性的模型,这些模型只考虑群体图像中的特定群体结构,往往无法匹配未见过的群体配置。原创 2025-02-25 17:48:57 · 793 阅读 · 0 评论 -
机器之心 | 重磅发现!DeepSeek R1方法成功迁移到视觉领域,多模态AI迎来新突破!
今天要给大家安利一个全新的开源项目 ——VLM-R1!它将 DeepSeek 的 R1 方法从纯文本领域成功迁移到了视觉语言领域,这意味着打开了对于多模态领域的想象空间!原创 2025-02-21 09:03:11 · 636 阅读 · 0 评论 -
AI科技评论 | CLIP 后门样本检测:揭示网络数据集中的后门风险丨ICLR 2025
CLIP 后门样本检测:揭示网络数据集中的后门风险丨ICLR 2025CLIP后门样本检测领域取得重要突破——5分钟内清洗百万数据,发现自然后门样本并揭示OpenCLIP预训练模型中的后门风险。随着多模态模型的快速发展,其安全问题日益受到关注,尤其是潜在的后门投毒风险。近日,墨尔本大学、复旦大学与新加坡管理大学的研究团队在CLIP后门样本检测领域取得重要突破,提出了一种面向工业场景的大规模数据集轻量化后门检测方法(4卡A100可在5原创 2025-02-18 17:56:16 · 1022 阅读 · 0 评论 -
新智元 | 小红书为何让歪果仁上头?推荐算法超牛,2篇核心论文揭秘
如今越来越多的歪果朋友入驻小红书,而这泼天流量也带来了「欲戴王冠,必承其重」的形势。而让大家纷纷赞扬的小红书内容推荐算法则是它能够接的下来这波流量的核心原因之一。本文通过对两篇小红书官方团队发布的推荐算法论文解读,带你揭开小红书内容推荐机制的神秘面纱。原创 2025-01-25 01:30:00 · 2189 阅读 · 0 评论 -
新智元 | MIT、OpenAI等震撼力作:AI首次自主发现人工生命!人类窥见上帝造物
Sakana AI联合MIT、OpenAI等机构提出了全新算法,自动搜索人工生命再达新的里程碑!不需要繁琐手工设计,只通过描述,AI就能发现全新的人造生命体了。原创 2025-01-20 17:33:40 · 816 阅读 · 0 评论 -
集智书童 | 同济提出简化 Transformer结构:在RTX3090上实现CLIP的轻量级训练 !
对比语言图像预训练(CLIP)因其卓越的零样本性能和优秀的迁移能力而受到了广泛关注。然而,训练这样的大型模型通常需要大量的计算和存储,这对一般用户(拥有消费级计算机)来说是一个障碍。原创 2025-01-11 17:54:47 · 857 阅读 · 0 评论 -
算法进阶 | 对比学习在学啥?全面概述!
对比学习是大模型的入门算法。它的想法很简单:对于输入x, 找一些它的正样本和负样本,希望在学习之后的网络特征空间中,x离正样本近一点,负样本远一点。原创 2025-01-11 17:52:09 · 960 阅读 · 0 评论 -
算法进阶 | Transformer+Diffusion? Transfusion!
近日,Meta 和 Waymo 发布了最新论文《Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model》,该论文将流行的 Transformer 模型与 Diffusion 模型相结合,用于多模态训练和预测。原创 2025-01-10 16:36:09 · 1039 阅读 · 0 评论 -
arXiv每日学术速递 | 机器人是如何实现自由运动的?ROS自主导航了解一下
当一个扫地机器人第一次来到你家时,它对家里的环境一无所知,所以第一次启动时,它的主要工作是探索这个未知环境,使用的技术就是SLAM。原创 2025-01-02 17:20:49 · 1258 阅读 · 0 评论 -
码科智能 | 微软开源视觉语言模型!能够执行超过10种不同的视觉任务,检测、分割、识别一切图片
Florence-2 采用统一的、基于提示的表示方式来处理各种视觉任务。通过简单的文本提示,模型可以生成所需的文本形式结果,无论是图片描述、目标检测、视觉定位还是图像分割。这种方法简化了多任务处理的复杂性,提高了模型的通用性和适应性。Florence-2 系列包括 Florence-2-base 和 Florence-2-large,参数分别为 0.23 亿和 0.77 亿。尽管模型较小,但性能并不逊色。其可以运行在各种资源受限的移动端设备上。原创 2024-12-25 15:34:20 · 1077 阅读 · 0 评论 -
新智元 | 2025年,AI Agent还会是风口吗?11个问题揭秘智能体技术发展全貌
经过了LLM、RAG、多模态等多轮技术风口的洗礼后,AI智能体的应用现状究竟如何?Langbase公司最近发布的调查报告通过11个关键问题,为我们提供了一份有价值的现状切面。原创 2024-12-22 06:15:00 · 1090 阅读 · 0 评论 -
WeThinkIn | 从图像到视频:浅谈Video Diffusion Models背后的底层原理
Rocky最新发布Stable Diffusion 3和FLUX.1系列模型的深入浅出全维度解析文章原创 2024-10-25 17:40:03 · 1905 阅读 · 0 评论 -
CV技术指南 | DetailCLIP 通过自蒸馏和像素级重建提升视觉语言模型的分割精度 !
在本文中,作者提出了DetailCLIP:一种面向细节的CLIP,以解决基于对比学习的视觉语言模型的局限性,尤其是在处理面向细节和细粒度任务(如分割)方面。尽管CLIP及其变体在图像和文本表示的整体对齐方面表现出色,但它们通常难以捕捉精确分割所必需的细粒度细节。为了解决这些问题,作者提出了一种新的框架,该框架采用自蒸馏和像素级重建损失的层次比较,并增强了一个基于注意力的标记删除机制。这种方法选择性地保留语义相关的标记,使模型能够专注于与作者的模型特定功能(包括文本处理、标记比较和图像重建)对齐的图像关键区域原创 2024-10-24 17:36:57 · 854 阅读 · 0 评论 -
菜鸟学Python | OpenAI canvas一夜封神!超强AI编码研究神器,ChatGPT再次颠覆人机交互!
ChatGPT横空出世以来,首次迎来界面史诗级升级!全新canvas界面,开启了人类与AI协作研究、编码的新时代,更代表着终极AGI人机交互形态。时隔两年,ChatGPT终迎来界面全新升级!原创 2024-10-15 09:30:53 · 518 阅读 · 0 评论 -
算法进阶 | 必知!大模型背后的6大核心技术!
大家好,今天我们一同来探讨一下那些大模型背后的核心技术!原创 2024-08-31 15:08:10 · 1211 阅读 · 0 评论 -
极市平台 | 语言图像模型大一统!Meta将Transformer和Diffusion融合,多模态AI王者登场
就在刚刚,Meta最新发布的Transfusion,能够训练生成文本和图像的统一模型了!完美融合Transformer和扩散领域之后,语言模型和图像大一统,又近了一步。也就是说,真正的多模态AI模型,可能很快就要来了!Transformer和Diffusion,终于有了一次出色的融合。自此,语言模型和图像生成大一统的时代,也就不远了!这背后,正是Meta最近发布的Transfusion——一种训练能够生成文本和图像模型的统一方法。原创 2024-08-27 17:37:05 · 1114 阅读 · 0 评论 -
OpenMMLab | 面向多样应用需求,书生·浦语2.5开源超轻量、高性能多种参数版本
在 2024 年 7 月 4 日的WAIC科学前沿主论坛上,上海人工智能实验室推出了书生·浦语系列模型的全新版本——InternLM2.5。相较于上一代,InternLM2.5 全面增强了在复杂场景下的推理能力,支持 1M 超长上下文,能自主进行互联网搜索并从上百个网页中完成信息整合。原创 2024-08-10 22:16:28 · 1235 阅读 · 0 评论 -
集智书童 | 浙江大学 & 蚂蚁集团提出 PAI,一种无需训练减少 LVLM 幻觉的方法 !
现有的大型视觉-语言模型(LVLM)主要通过将视觉编码器的图像特征与大型语言模型(LLM)对齐,以利用它们卓越的文本生成能力。然而,视觉编码器与语言模型之间的规模差异可能导致LLM在多模态理解中占据主导地位。这种LVLM中的不平衡可能导致产生幻觉的实例。具体来说,LVLM可能在没有视觉输入的情况下生成一致的描述,这表明某些输出仅受上下文文本的影响。原创 2024-08-07 17:39:12 · 1308 阅读 · 0 评论 -
我爱计算机视觉 | Diffusion反馈强势助力CLIP秒变火眼金睛:北京智源研究院、中科院自动化所联合推出DIVA
本文分享论文Diffusion Feedback Helps CLIP See Better,专注于通过自监督学习范式解决CLIP无法区分细粒度视觉细节的问题。原创 2024-08-04 17:29:50 · 866 阅读 · 0 评论 -
程序员学长 | 快速学习一个算法,CLIP
今天给大家介绍一个强大的算法模型,CLIP。是一个由 OpenAI 开发的,它能够理解图像和相关文本之间的关系。CLIP 的核心思想是通过对比学习(Contrastive Learning)训练一个模型,使其能够将图像和描述性文本映射到同一个向量空间中。CLIP 模型的主要意义在于其跨模态学习能力,即能同时处理和理解图像及其文本描述。这种能力使得 CLIP 在处理视觉任务时不局限于固定的数据集和预定义的类别,而是能够理解在训练时未曾见过的概念或对象。原创 2024-08-03 22:36:14 · 1405 阅读 · 0 评论 -
AI算法与图像处理 | 吴恩达团队新作!多模态方向
研究结果表明,多样本上下文学习能够显著提高多模态基础模型的表现,尤其是 Gemini 1.5 Pro 模型在多个数据集上表现出持续的性能提升,使其能够更有效地适应新任务和新领域,而无需传统的微调。然而,受限于基础模型的上下文长度,尤其是对于需要大量视觉 token 来表示图片的多模态基础模型,已有的相关研究只局限于在上下文中提供少量样本。通过对多个领域和任务的数据集进行测试,团队验证了多样本上下文学习在提高模型性能方面的显著效果,并探讨了批量查询对性能和成本及延迟的影响。原创 2024-07-26 21:16:07 · 820 阅读 · 0 评论 -
小白玩转Python | 图像相似度比较之 CLIP or DINOv2(推荐阅读 ! )
在人工智能领域,计算机视觉的两大巨头是CLIP和DINOv2。CLIP改变了图像理解的方式,而DINOv2为自监督学习带来了新的方法。在本文中,我们将探索定义CLIP和DINOv2的强项和微妙之处的旅程。我们旨在发现这些模型中哪一个在图像相似度任务的世界中真正出色。让我们见证这两位巨头的较量,看看哪个模型胜出。原创 2024-06-11 18:28:27 · 2222 阅读 · 3 评论 -
江大白 | CLIP-Mamba开源,首次提出CLIP训练,仅1/5参数就达到Sort性能(附论文及源码)
作者首次尝试利用对比语言-图像预训练来训练可迁移的Mamba模型,并在大量数据集上进行了全面评估。作者发现,Mamba模型与视觉Transformer模型在零样本分类任务上表现相当,但参数更有效。在测试中,Mamba模型在处理对比度或高通滤波的OOD图像时表现出色。原创 2024-05-16 17:51:18 · 1788 阅读 · 0 评论 -
CVHub | CVPR 2024 | 英伟达发布新一代视觉基础模型: AM-RADIO = CLIP + DINOv2 + SAM
简单来说,AM-RADIO 是一个由英伟达提出的一个视觉基础模型框架,其集成了多个预训练的视觉基础模型如 CLIP、DINOv2及SAM 的能力,以获得强大的表征能力,同时也以几乎可以忽略不计的额外成本实现了SOTA级别的零样本分类或开集实例分割性能。原创 2024-05-14 22:01:09 · 2291 阅读 · 0 评论 -
Coggle数据科学 | Coggle 4月竞赛学习:多模态图文问答
在自然语言处理领域,大型语言模型(LLM)如GPT-3、BERT等已经取得了显著的进展,它们能够生成连贯、自然的文本,回答问题,并执行其他复杂的语言任务。但想要让大模型回答复杂问题,需要对原始内容进行深入的理解,比如对数据库进行解析、图像、语音等内容进行解析。原创 2024-04-21 18:08:12 · 1343 阅读 · 0 评论 -
极市平台 | 综述:一文详解50多种多模态图像融合方法
一般来说多模态感知融合在自动驾驶环境中的任务包括了经典的目标检测、语义分割、深度估计和深度预测这类的工作品。其实常见的任务也主要也还是语义分割和目标检测。文章很详细的为我们整理了当前多模态融合的一些工作以及一些未来发展的方向。其实我觉得我们需要一套合理化决策,而且成本较低的多模态融合框架,就需要我们对我们的数据更加的了解。此外我们也需要更多的数据。更多的分析成本的投入。像自监督、对比学习、大规模预训练这类型的赋能工作,直接一套或许也能取得很棒的成绩,但是这种核弹式的打击并不是优化工作的核心内容。原创 2024-04-08 17:12:36 · 1969 阅读 · 0 评论 -
计算机视觉研究院 | SuperYOLO:多模态遥感图像中的超分辨率辅助目标检测(附源代码)
准确及时地从遥感图像中检测包含数十个像素的多尺度小物体仍然具有挑战性。大多数现有的解决方案主要设计复杂的深度神经网络来学习与背景分离的对象的强特征表示,这通常会导致沉重的计算负担。在今天分享中,提出了一种精确而快速的RSI(remote sensing images)目标检测方法,称为SuperYOLO,该方法融合多模态数据,并利用辅助超分辨率(SR)学习,同时考虑检测精度和计算成本,对多尺度对象进行高分辨率(HR)对象检测。原创 2024-03-31 17:55:12 · 3887 阅读 · 0 评论