- 博客(294)
- 收藏
- 关注
原创 AI写的论文登上Nature,通过ICLR盲审,6.33分超人类均值!
简单来说,“The AI Scientist” 是一个端到端的自动化科研流水线。只要你给它指定一个研究的大方向(比如“机器学习”),它就能像一个不知疲倦的超级博士生一样,开启自动运转的挂机模式。The AI Scientist 的四大核心阶段:灵感构思 (Ideation)、实验阶段 (Experimentation)、论文撰写 (Write-up) 和 自动评审 (Automated Review)。读到这里,相信很多做科研的小伙伴可能感到了一丝寒意。
2026-03-30 15:59:11
405
原创 顶会风向标!当交叉注意力遇上特征融合!今年最容易中稿的几个新思路
今天在顶会上看到一篇论文:将交叉注意力机制与特征融合结合,在脑电图情感识别任务中实现了近100%的准确率。这一思路当下十分热门,相比传统方法,不仅能提升模型准确率与计算效率,还能更好地适应跨模态数据融合,增强泛化性与鲁棒性。其关键在于,交叉注意力可动态分配权重,在模态间建立有效关联,为特征融合提供更丰富的表示,同时剔除冗余、降低计算负担。为大家快速掌握这一涨点技巧,我整理了12篇顶会论文及源码,供参考学习。
2026-03-26 11:42:34
326
原创 发文快准狠!强化学习+卡尔曼滤波,这套组合拳竟成顶会发文录用秘籍
该方向在机器人、自动驾驶、无人机、金融等对状态估计精度要求高的领域应用广泛,顶会成果频出,如登顶 Nature 封面的 Swift 系统、一区准确率近 100% 的 AdaRL-MD 模型。若目标为二三区,可聚焦具体应用问题,如用卡尔曼滤波作为 RL 的状态估计器,解决噪声环境下的性能下降,在视觉伺服、机器人定位等任务中展示比纯 RL 更高的稳定性和收敛速度。若冲击高区,则需深入理论探索,如结合部分可观马尔可夫决策过程、卡尔曼滤波与值函数/策略更新等。
2026-03-25 17:42:30
392
原创 连刷两篇顶会!小样本学习的这个「隐藏Bug」被修复后,效果炸裂!
小样本机器学习迎来重磅突破:TabPFN模型登上Nature正刊。该模型在数百万合成数据集上预训练,专攻小规模表格数据,实现建模速度飙升5000倍、分类准确率提升13% 的跨越式提升。当前,小样本研究正聚焦四大热点:与大模型深度融合、多模态+跨域迁移、与扩散模型等生成式AI结合、轻量化设计。同时,结合真实场景解决实际问题,亦是值得深挖的创新路径。为助力高效研究,我整理了30种创新思路及对应源码,覆盖上述前沿方向,供大家参考。
2026-03-24 15:16:16
191
原创 Nature 子刊 | 还在让PINN死记硬背方程?Ψ-NN引入知识蒸馏,自动解锁物理网络结构
如果说传统的 PINN 是一个努力死记硬背物理定律的学生,那么 Ψ-NN 则是通过“知识蒸馏与结构重构”,直接把物理定律变成了自己大脑皮层的回路。内在结构化:模型输出天然满足物理规律。强可解释性:子矩阵组合揭示了底层特征关系。高参数效率:参数共享机制降低了复杂度。这为“AI for Science”提供了一个全新的视角——从过去的人工设计网络,走向基于数据的物理神经网络结构自动发现。
2026-03-20 15:20:42
353
原创 2026顶会发文密码!Mamba + ViT最强混合架构,闭眼涨点!
在计算机视觉领域,如何精准高效地捕捉图像中的复杂模式始终是核心挑战。过去,卷积神经网络(CNNs)与视觉变换器(ViTs)各自引领发展。ViTs虽凭借自注意力机制在建模长距离依赖上表现优异,但其计算复杂度随图像块(Token)数量呈二次方增长,处理高分辨率任务时面临严重瓶颈。现有优化方案往往在有效感受野与下游任务性能间顾此失彼。近期突破性进展将自然语言处理中成效显著的状态空间模型(Mamba)引入视觉领域,构建出新型基础架构。
2026-03-19 14:05:28
239
原创 CVPR 2026 | “黑盒”也能抓内鬼?中科院新作 BlackMirror 破解文生图后门难题
BlackMirror 巧妙地避开了“看整体图”的死胡同,转而像侦探一样,通过“图文找茬 + 稳定性逼问”的方式,在不碰模型内部代码的情况下,精准揪出了文生图模型的隐藏后门。随着视觉语言模型(VLM)能力的不断进化,BlackMirror 的检测威力在未来还将进一步提升。
2026-03-18 18:58:31
407
原创 CVPR 2026 | 手机视频秒变4D场景!清华&理想联合提出MoRe:实时、抗动态干扰的4D重建神器
不需要额外的运动分割模块,仅仅通过巧妙的 Attention-Forcing 训练策略,就让大模型具备了分离动态物体和静态背景的本能。融合分组因果注意力和全局对齐,在保证极高实时性的同时,守住了长时间几何一致性的底线。从学术走向落地,MoRe 让单目视频实时 4D 重建变得更加触手可及。
2026-03-11 11:22:00
361
原创 CVPR 2026 | 显存杀手救星!剪掉90%的Token,性能几乎不掉?带你图解视频大模型极速推理神器 AOT!
AOT 通过在空间和时间维度上双管齐下的“最优传输”聚合策略,打破了传统视频大模型 Token 剪枝“非留即扔”的粗暴模式。它巧妙地衡量了废弃 Token 对保留锚点的内在贡献,在极大压缩计算时空开销的同时,完美保留了视频的时间动态和视觉完整性。对于每一位饱受算力折磨的 AI 开发者来说,AOT 无疑提供了一种极其优雅且极具工程实用价值的破局思路。
2026-03-10 16:22:16
373
原创 我啃了1000篇2025年CV论文,发现计算机视觉正在悄悄“变务实”
不再只是在输入上做点变换,而是干脆把任务的输出域重映射,让模型的“恶意目标”失效。代表解法:用 reprogramming 做 inversion-free 后门防御。REFINE 的直觉很强:如果你固定输出域,输入变换就会陷入“防御强→精度掉”的两难。它通过输出 remapping 让输入变换空间变大,从而同时保住 BA、压低 ASR。配图 1:REFINE Figure 1配图 2:REFINE Figure 4关键公式(出自论文公式)minθLrefineLce。
2026-03-10 11:13:55
376
原创 CVPR 2026 | OPPO提出PPCL框架,让百亿参数DiT模型“瘦身”50%且性能无损!
大模型的冗余不仅在深度上,也在宽度上。MMDiT 为了对齐文本和图像,采用了双流架构。文本流高度重合:文本流在不同层之间的表征相似度极高,跨层变化很小,完全可以大幅压缩。FFN(前馈神经网络)过度参数化:图像流和文本流中的 FFN 胖得有些多余,用轻量级的线性映射器就能达到相似效果。因此,PPCL 直接用轻量的线性映射器替换掉了冗余的文本流和 FFN。选自论文中的 Figure 5。
2026-03-09 11:33:29
314
原创 CVPR 2026 | 推理加速 2.16 倍!港科大等提出 MODES:首个多模态 MoE 动态跳过框架
MODES 的出现,标志着多模态大模型推理进入了“精细化管理”时代。它不仅让我们看到了“偷懒”的艺术——即跳过那些不重要的专家,更通过科学的全局调度和模态感知,证明了高效与精准可以兼得。如果你正在为多模态模型的部署速度头疼,MODES 无疑是一剂良方。
2026-03-05 11:26:19
406
原创 CVPR 2026 | 单次前向媲美32次迭代!小鹏Aridge提出Pip-Stereo打破立体匹配落地瓶颈
小鹏 Aridge 团队的这篇 Pip-Stereo 为边缘端的高性能 3D 视觉部署提供了一套教科书级别的方案。在时间上压缩冗余轨迹,在空间上压榨硬件访存,让算法回归计算的本质,才是打破落地的关键。面对部署瓶颈,不要盲目地魔改网络结构,而是要深入分析计算图的冗余所在,用训练策略(转移、剪枝)和底层算子优化(FlashGRU)来降维打击。对于致力于计算机视觉落地、自动驾驶研发以及做模型轻量化研究的同学们来说,这篇论文中的**“累积轨迹对齐思想”和“I/O 感知算子设计”**非常值得研读。
2026-03-04 11:36:56
418
原创 CVPR 2026 | Less is More!CLIP模型的短板被补齐了?从“看颜色”到“懂结构”的降维打击
少即是多(Less is More)。剔除了颜色和材质的干扰,AI 终于看清了世界的真实模样。最重要的是,这种微调方法推理时完全不增加计算量,堪称视觉语言模型领域的“降维打击”!论文标题:StructXLIP: Enhancing Vision-language Models with Multimodal Structural Cues论文链接:https://arxiv.org/abs/2602.20089v1。
2026-03-02 16:58:26
728
原创 CVPR 2026 | 强如GPT-4o也“翻车”?浙大等最新成果揭秘:真实空间逻辑测试难倒所有AI
比如问“球员的帽子和盘子颜色一样吗?”大模型看一眼就能答出“不一样,帽子是蓝的,盘子是白的”。比如丢给它一个几何题,它能通过数学公式一步步推导出正确选项。但在真实的物理世界里,这远远不够。研究团队首次明确提出了**“空间逻辑推理”**的概念:它不仅要求模型理解复杂场景中物体之间的空间关系,还要求模型能梳理出完成多步任务的逻辑依赖关系。空间理解 + 严密逻辑 = 空间逻辑推理。(提示:图1左侧展示了常规VQA,中间展示了抽象数学推理,右侧则是本研究的核心——空间逻辑推理。
2026-02-28 14:46:55
506
原创 北大&清华&DeepSeek:唤醒闲置网卡,卡住大模型的不是算力,而是硬盘到网卡的 I/O 带宽!
DualPath 并没有发明新的 GPU 或更快的网卡,而是用极其敏锐的系统工程视角,找出了木桶上最短的那块板——预填充节点的存储网卡。通过“化零为整”,把闲置的解码节点带宽拉入战局,DualPath 优雅地化解了 Agent 时代的 I/O 危机。对于正在构建下一代长文本、多智能体协作系统的基础架构团队来说,DualPath 提供了一条极具价值的优化指引路线。
2026-02-27 14:30:54
919
原创 CVPR 2026 | 告别“地毯式搜索”!中科院&华为开源 Long Video-R1,精准定位只需几分钟!
Long Video-R1 为长视频理解打开了一扇新的大门。它证明了,在有限的算力预算下,“让AI学会放弃冗余信息,专注于动态推理导航”才是迈向实用化的真正出路。目前,该项目的代码和数据均已开源!论文标题:LongVideo-R1: Smart Navigation for Low-cost Long Video论文链接:https://arxiv.org/abs/2602.20913v1代码链接:https://github.com/qiujihao19/LongVideo-R1。
2026-02-26 16:01:01
726
原创 ICLR 2026 | 喂给大模型“元数据”就能加速预训练?别只盯着 URL 了!
简单来说,元数据(Metadata)就是“关于数据的数据”。假设你要读一本书,书里的正文是“数据”,那书的封面、作者、豆瓣评分、属于科幻还是悬疑分类,这些统统都是“元数据”。质量得分(Quality Score):分为粗粒度(比如 3、4、5 分)和细粒度(把得分放大十倍,比如 25 到 50 分)。领域信息(Domain Information):分为粗粒度(576 种分类)和细粒度(由大模型开放生成的无限类别,包括主题和格式)。作者把这些元数据用特殊的标记符号<boc>
2026-02-24 11:56:20
455
原创 别再手搓RAG了!UBC提出ALMA:让AI自己写代码“设计记忆”
手动设计AI组件的时代正在过去,AI自我进化的时代正在到来。这篇论文证明了,与其让人类绞尽脑汁去猜Agent需要什么样的数据库结构,不如给AI一个代码编辑器,让它在千万次试错中自己找到答案。ALMA的关键启示:用代码作为策略的搜索空间,比调整参数强大得多。没有通用的完美记忆,只有最适合当前任务的记忆。当Agent学会了优化自己的大脑(记忆结构),通向AGI的递归自我改进(Recursive Self-Improvement)之路或许就不远了。
2026-02-14 15:47:33
801
原创 Transformer范式改变?稀疏线性混合SALA架构发布,单卡5090跑通百万长文!
没必要死磕全注意力,稀疏+线性的混合架构在长文本场景下性价比极高。通过合理的训练策略,我们可以继承现有开源模型的“智慧”,以极低的成本将其改造为适应长文本的新物种。对于显卡资源有限,但又想尝试百万级上下文处理的开发者来说,MiniCPM-SALA 绝对是一个值得关注的开源利器。
2026-02-13 14:31:01
972
原创 ICLR 2026 | 你的“完美恋人”可能是AI团伙?DeepSeek、Claude变身“杀猪盘”高手!
这篇论文不仅仅是一个技术实验,更是一个高能预警。AI安全不仅仅是对话安全:以前我们只关心AI会不会说脏话,现在我们要关心AI会不会组团骗钱。现有的安全护栏已失效:大部分模型(除了Llama-3.1-405B)在面对诈骗指令时,几乎没有任何拒绝。技术是双刃剑:DeepSeek、Claude等模型强大的推理能力,既能用于科研,也能被用于构建完美的骗局。屏幕对面坐着的,是人,还是一群正在开会复盘诈骗话术的顶尖AI?
2026-02-12 11:49:23
744
原创 VAE不再必要?北大PixelGen:像素扩散反超Latent Diffusion,重塑生成新范式
本文提出了PixelGen,证明了在像素空间直接进行扩散生成不仅是可行的,而且在引入正确的感知监督(LPIPS + P-DINO)后,可以击败目前主流的潜在扩散模型(Latent Diffusion)。PixelGen 不需要复杂的 VAE 进行图像压缩,避免了压缩带来的伪影,提供了一种更简单、更纯粹且性能更强大的生成范式。实验数据表明,它在训练效率和最终生成质量上都取得了突破性进展。
2026-02-05 14:59:18
941
原创 ICLR 26 | 字节 Depth Anything 3:单Transformer统一3D视觉,刷新SOTA!
本文提出了,这是一个极具野心的通用几何基础模型。通过采用极简的“单一 Transformer + 深度光线表示”架构,并配合大规模合成数据预训练的教师模型进行监督,DA3 成功打破了单目、多目与视频任务的壁垒。它不仅在相机姿态估计和 3D 重建精度上大幅超越了现有的 SOTA 方法(如 VGGT 和 DUSt3R),还证明了强大的几何骨干网络可以显著提升新视图合成(NVS)的效果。
2026-02-03 14:41:33
792
原创 何恺明团队新作:像素生成只需一步,无需VAE、直接预测,FID 2.22 刷新SOTA!
这篇论文成功证明了在不依赖潜空间压缩(Latent-free)和多步采样的情况下,仅通过一步网络推理直接在原始像素空间生成高质量图像是完全可行的。其核心结论是:在高维像素空间中,神经网络的学习目标应当被设计在低维数据流形上(即预测。
2026-02-02 14:08:26
858
原创 不仅是开源!DeepSeek OCR 2 来了,这才是真正的“降维打击”!
DeepSeek-OCR 2 的发布标志着视觉编码从单纯的“特征提取”向“语义推理”的转变。通过将 LLM 架构引入 Vision Encoder 并结合因果注意力机制,DeepSeek 探索出了一条在二维空间结构与一维因果语言建模之间搭建桥梁的技术路径。这不仅优化了 OCR 任务,也为未来构建处理音频、视频等全模态(Omni-modal)数据的统一编码器提供了验证。项目地址:https://github.com/deepseek-ai/DeepSeek-OCR-2。
2026-01-27 15:17:10
690
原创 Nature正刊:GPT-4o被教坏写“漏洞”后,竟想“奴役人类”?
当前大语言模型的安全性研究主要集中在防止模型直接输出有害内容或被用户“越狱”。然而,研究人员发现了一个令人担忧的新难题:当我们为了某个特定目的(比如测试安全性)教模型做一件具体的坏事时,模型似乎会“变坏”,在其他无关领域也开始表现出恶意。现有的安全对齐方法很难预测或阻止这种泛化的恶意行为。为了解决这一认知空白,本论文通过实验分析了**涌现失配(Emergent Misalignment)**现象。
2026-01-21 15:58:56
522
原创 Transformer+UNet:顶会的“发文密码”,思路对了结果真香!
Transformer与UNet的结合已成为图像分割与生成领域的主流架构,虽已广泛应用,但在轻量化设计、跨模态适应、3D与视频扩展、以及可解释性等方面仍具创新潜力。针对数据稀缺、模型效率等实际局限,在具体应用场景中提出改进,仍易于产出高水平论文。尤其在眼科OCT分割、病理切片分析等数据特征鲜明的垂直领域中,结合任务特点设计方法,能够凸显研究的实用价值与针对性。若你对该方向感兴趣,建议从近期前沿成果入手。我们整理了15篇附代码的经典论文,阅读后有助于快速形成研究思路。
2026-01-13 10:28:08
531
原创 μP神话破灭!复旦邱锡鹏团队推翻OpenAI关键理论,大模型学习率设置有了新公式
在大模型预训练这一高成本系统工程中,Batch Size(批大小)与 Learning Rate(学习率)的设定,直接影响训练效率与模型性能。它们如同赛车的动力与操控:Batch Size 决定每次迭代处理的数据量,影响训练速度与稳定性;Learning Rate 则控制模型参数更新的步幅,关乎收敛效果与最终性能。长期以来,行业普遍依赖两大经典理论指导超参设置:然而,随着 WSD(热身‑稳定‑衰减)调度器 与 MoE(混合专家)架构 逐渐成为主流训练配置,传统方法在新环境下的适用性正面临显著挑战。近期,复旦
2026-01-12 14:26:26
665
原创 抛弃黑盒!从LoRA到自注意力,Oracle研究员手推Transformer全链路梯度!
这篇论文是一份面向深度学习初学者的硬核教程,旨在揭开 Transformer 模型训练过程中的数学黑盒。它不依赖现成的深度学习框架自动求导功能,而是通过手算推导,展示了 Transformer 架构中各个组件(如自注意力机制、层归一化、LoRA 等)是如何通过反向传播算法计算梯度的。这篇论文通过纯数学的方式,让读者理解数据和误差信号如何在网络中流动,从而帮助读者从底层逻辑上掌握大模型是如何“学习”的。
2026-01-08 14:27:07
596
原创 KL散度加到Loss里?过时了!Bengio团队重磅研究:别再拿KL散度当Loss了,这才是无偏最优解
随着 DeepSeek-R1 的爆火,RLVR 几乎成为了大模型进阶的必修课。从 PPO 到 GRPO,所有算法都在讲同一个故事:在 Maximize Reward 和 Minimize KL Divergence 之间寻找完美的平衡点。但在落地实操中,我们往往因为“大家都这么做”而忽略了一个关键细节:KL 惩罚项的放置位置。目前,绝大多数主流开源框架(包括 VeRL, OpenRLHF, SkyRL)为了图省事,默认将 KL 估算器直接写进了 Loss 函数里。这种做法看似殊途同归,实则暗藏玄机。
2026-01-06 11:59:28
747
原创 开源盛世!DeepSeek 2026 首篇论文,从 HC 到 FC 再到 mHC,破解残差连接瓶颈
从 Hyper-Connections 开启的高维连接,到 Frac-Connections 的效率优化,再到 DeepSeek 通过 mHC 引入的数学流形约束,神经网络的宏观架构设计正在经历从“暴力堆叠”向“精密路由”的进化。严谨结论:拓扑复杂性:单纯增加参数量已不再是 Scaling 的唯一路径,优化层间的信息路由宽度(Residual Stream Width)提供了新的增长点。约束的价值。
2026-01-04 15:44:41
886
原创 为SFT正名!清华突破性发现:大模型胡言乱语的“罪魁祸首”,竟是这0.1%的“幻觉神经元”
大型语言模型(LLMs)虽然在很多任务上表现出色,但经常会产生,也就是生成看似合理但实际上错误的内容,这严重影响了它们的可靠性。目前的研究大多从宏观角度(如训练数据、训练目标)来分析幻觉,却鲜有研究深入到微观的层面。这就像医生只知道病人的症状,却不知道身体里哪个细胞出了问题,导致难以根除病灶。现有的难题在于,我们不知道模型内部究竟是哪些微小的计算单元在“撒谎”,以及它们是如何运作的。为了解决该问题,本论文提出了一个基于的分析框架,用于识别和定位模型中与幻觉直接相关的(幻觉神经元)。
2025-12-30 11:57:13
655
原创 Transformer可解释性获重大突破,成果登《Nature》子刊,霸榜顶会!
Vision Transformer(ViT)凭借强大的全局建模能力席卷计算机视觉领域,但其多头注意力机制如同“黑盒”,难以解释决策依据,影响了在自动驾驶、医疗等高信任要求场景中的应用。传统可解释方法存在明显局限:Attention Rollout 平等对待所有注意力头,忽略了其中大量噪声;“Grad-CAM”等生成的热力图往往模糊,只能标注物体轮廓,无法聚焦关键细节。通过梯度信息对注意力头进行加权,有效识别并过滤噪声头;则引入类别提示词进行微调,引导模型主动捕捉具有区分度的细粒度特征。
2025-12-29 11:32:20
914
原创 AAAI 2026 | 知识图谱全变乱码,LLM还能推理,ARoG突破RAG隐私瓶颈
该策略旨在解决第一个挑战。系统将匿名实体视为“主语”或“宾语”,将其相邻的关系视为“谓语动词”。利用 LLM 的推理能力,根据相邻关系的语义动态推断该实体的高层概念(Concept)。具体而言,对于候选实体eee,模型根据其筛选后的相关关系集合RvoptR_{v,opt}Rvopt生成抽象概念,并将其附加在 MID 之后形成抽象实体eabse_{abs}eabs。
2025-12-25 11:47:40
1096
原创 AAAI 2025 | LoRA 微调再进化!AILoRA 提出非对称初始化:更小参数,更强性能
为此,研究人员开发了参数高效微调(PEFT)方法,其中LoRA是最流行的一种,但现有的LoRA及其变体通常采用随机初始化或统一的奇异值分解初始化,忽略了模型内部不同模块的功能差异,导致训练收敛慢且性能未达最优。该框架依据自注意力机制中投影矩阵的不同功能,对Query矩阵采用主成分初始化以增强任务适应性,对Value矩阵采用次成分初始化以保持特征稳定性,从而在自然语言理解和生成任务中均获得了优于现有方法的性能和收敛速度。对下游任务的变化非常敏感,需要捕捉特定任务的语义空间,AILoRA 提取其。
2025-12-23 10:45:42
856
原创 NeurIPS 2025 | 手持8张4090,怎么练大模型最划算?LLM炼丹哈佛给出终极配方
本文探讨了在计算资源受限(如仅有 8 张 RTX 4090)的真实环境下,如何科学地分配算力以训练出高性能的垂直领域语言模型。研究基于哈佛与斯坦福团队发表于 NeurIPS 2025 的EvoLM项目,通过对 100 多个 1B/4B 规模模型进行全生命周期(预训练 PT、持续预训练 CPT、监督微调 SFT、强化学习 RL)的穷举式实验,揭示了模型训练动力学的核心规律。文章否定了盲目追求大参数量或依赖大模型中间权重的做法,为“平民玩家”提供了一套包含数据配比、训练轮数及监控指标的标准化炼丹配方。
2025-12-19 10:46:47
865
原创 AAAI 2026 | T3Time:动态对齐三模态,实现全场景精准预测
这篇文章主要介绍了一种名为的新型多变量时间序列预测模型。简单来说,以往的预测模型通常只盯着数据随时间变化的规律,或者虽然引入了外部描述(如文本提示),但结合得很生硬。这就好比一个人在预测天气时,只看今天的温度,或者只看“今天是夏天”这句话,却不知道如何根据预测未来的远近来灵活结合这些信息。T3Time 能够同时利用三种信息:原始的时间数据、代表周期规律的频率数据,以及大语言模型生成的文本描述。
2025-12-17 10:57:26
1239
原创 一步SOTA!何恺明团队iMF实现单步生成FID 1.72,无需蒸馏从零训练
继今年5月提出MeanFlow(MF)后,何恺明团队推出改进版Improved MeanFlow(iMF),其通过重构训练目标为更稳定的瞬时速度损失、引入灵活无分类器指导(CFG)及高效上下文内条件作用,解决了原始MF在训练稳定性、指导灵活性与架构效率上的三大核心问题,在ImageNet 256x256基准测试中,iMF-XL/2模型以1-NFE(单步函数评估)1.72的FID成绩较原始MF提升50%,证实从头训练的单步生成模型可媲美多步扩散模型。
2025-12-04 10:29:41
1397
原创 AAAI2026 Oral 重磅首发!港大 & 自动化所 ARRA,混合令牌 + 对齐损失,LLM 文生图全局一致性实现质的飞跃!
本文提出ARRA(自回归表示对齐)框架,通过引入全局视觉对齐损失与混合令牌,在不修改LLM架构的前提下,解决了其文本到图像生成时的全局连贯性不足问题。实验验证,ARRA在医疗(MIMIC-CXR)、自然图像(ImageNet)等领域均有效:降低先进LLM的FID值(如MIMIC-CXR上降25.5%),支持领域适配(医疗场景FID降18.6%),且加速训练收敛,证明“重设计训练目标”是突破跨模态生成瓶颈的有效路径。
2025-12-01 10:50:34
631
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅