数据派THU-CSDN博客

转载 CUDA重大更新：原生Python可直接编写高性能GPU程序

这种演进趋势反映了高性能计算领域的一个重要发展方向：技术门槛的降低和开发体验的改善将推动GPU加速计算在更多应用领域的普及和创新。这不仅扩展了CUDA的开发者生态，更为人工智能、科学计算和数据分析等领域的Python应用开辟了新的性能优化路径。新的CUDA Python支持集成了先进的即时编译（JIT）系统，该系统几乎消除了传统CUDA开发中的预编译需求。NVIDIA为新的Python CUDA环境提供了全面的性能分析工具链，包括细粒度的性能分析器和静态代码分析器。

2025-06-07 17:02:15 7

转载独家｜魔术背后：张量如何驱动变换器（Transformer）

当数据在网络中移动时，这些张量会经过不同的步骤，比如转化为模型可以理解的数字（嵌入）、聚焦于重要部分（关注）、保持平衡（归一化），以及通过学习模式的层级（前馈）。定期的翻译培训提高志愿者的翻译水平，提高对于数据科学前沿的认知，海外的朋友可以和国内技术应用发展保持联系，THU数据派产学研的背景为志愿者带来好的发展机遇。，东南大学法律硕士，现就职于北京市京都律师事务所，喜欢浏览“数据圈儿”，分享数据资讯的法律人。换器中的张量是如何工作的，有助于理解当今最智能的人工智能系统究竟是如何工作和思考的。

2025-06-07 17:02:15 11

转载 R1-Zero的无监督版本来了！SFT不再是必须，EMPO重新定义大模型推理微调

然而，现有提升推理性能的主流范式，往往依赖监督微调（SFT）与强化学习（RL）的结合，依赖于人工标注的推理路径、标准答案或额外的奖励模型。EMPO 是经典机器学习中熵最小化在大语言模型推理任务上的拓展，语义熵（semantic entropy）是经典的香农熵在大语言模型上的自然拓展，而前者已被广泛验证与大模型的错误（幻觉）输出有强的负相关性，因此语义熵最小化能够作为代理优化目标提升模型性能。上述结果表明，EMPO 能够降低模型在无标注数据上的语义熵，进而无监督提升了模型的性能。

2025-06-06 17:04:34 11

转载【阿姆斯特丹博士论文】在测试时学习泛化

泛化能力，即将从已见上下文中学习到的知识有效应用于陌生情境的能力，是人类智能的重要特征，但对当前的人工智能系统而言仍是一项重大挑战。数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。：面向多模态基础模型，设计新颖的提示学习框架，涵盖针对任意类型分布偏移的测试任务专属提示生成，以及用于在线提示更新的动态测试时提示调整方法。训练阶段的泛化模型学习。测试阶段的泛化模型学习。

2025-06-06 17:04:34 14

转载为什么混合专家模型（MoE）如此高效：从架构原理到技术实现全解析

由于这些基于MoE的技术进步，DeepSeek-v3不仅在性能上与领先的LLM相当，而且实现了经济高效的训练——没有资源浪费，没有训练不稳定性。总体而言，DBRX的训练流程比以前的模型减少约4倍的计算量。通常，共享专家的数量少于路由专家，因为过多的共享专家会削弱模型的稀疏性和效率优势。最重要的是，这些模型在提供与顶级封闭模型相当性能的同时，实现了更低的训练成本。研究表明，MoE模型通常在较低容量因子下表现良好，但需要关注因容量限制而丢弃的token数量，过多的token丢弃会影响模型性能。

2025-06-06 17:04:34 14

转载 CVPR 2025 | 重建与生成：克服潜在扩散模型中的优化困境

目前，有两种常见的策略可以解决这个问题：第一种涉及扩大模型参数，如 Stable Diffusion 3，它表明更高维的分词器可以通过明显更大的模型容量实现更强的生成性能——然而，这种方法需要更多的训练计算，这使得它对于大多数实际应用来说非常昂贵。最近，一些有影响力的文本到图像作品与 Stable Diffusion 中广泛采用的 VAE 相比，探索了更高维的分词器，因为这些分词器提供了改进的细节重建，实现了更精细的生成质量。在本文的工作中，旨在扩大DiT体系结构的潜力，并探索DiT可以走多远的边界。

2025-06-05 17:03:23 17

转载【ICML2025】多模态表示坍塌的深度剖析

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。：通过在学生模型编码器中释放秩瓶颈，从而对融合头输出进行去噪，而不会削弱任何一个模态的预测性特征。该现象指的是，在多模态融合任务中训练的模型。某一模态中的噪声特征通过融合模块中的共享神经元，与另一模态中的预测性特征纠缠在一起。，从而掩盖了前者模态中预测性特征的正向贡献，最终导致该模态在表示空间中“坍塌”。新浪微博：@数据派THU。

2025-06-05 17:03:23 11

转载 npj Digital Medicine发表多模态语言-视觉大模型——驱动甲状腺结节诊断革新：迈向动态智能辅助的AI协同新时代

甲状腺结节作为常见的内分泌疾病，其风险评估主要依赖超声成像（US）和细针穿刺活检（FNA），但传统诊断方法受限于放射科医生的经验，并且AI模型的可解释性不足，导致诊断结果的可信度较低。例如，在某些病例中，放射科医生最初将结节诊断为良性，但在与ThyGPT讨论后，根据模型提供的详细解释和额外信息，修正为恶性诊断，并最终得到病理结果的确认。这表明模型不仅提高了识别恶性结节的能力，还减少了误诊为恶性的良性结节数量。在ThyGPT的辅助下，初级放射科医生的诊断性能显著提升，其平均诊断能力接近或达到AI模型的水平。

2025-06-05 17:03:23 10

转载【伯克利博士论文】用于机器人操作的多模态感知：融合视觉、语言与触觉

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。接着，提出了一种基于**“下一个 token 预测”机制的上下文模仿学习方法**，使机器人能通过 prompt（提示）快速适应新任务。人类在日常生活中通过多种感官与环境互动：视觉用于感知和理解环境，身体意识用于定位，语言用于交流和语义理解，触觉则用于接触反馈。，实现了更强的语义推理能力，从而获得更有效的操作策略。

2025-06-04 17:03:16 13

转载基于马尔可夫链的状态转换，用概率模型预测股市走势

其输出的是概率而非确定性结果，且模型的有效性高度依赖于历史数据的质量、状态定义的合理性以及市场环境的相对稳定性。值得注意的是，最可能的次日状态实际是"大幅上涨"(29.10%)，这一反向走势的可能性高于其他任何单一状态。这揭示了马尔可夫链的一个深层特性：无论初始状态如何，经过足够长的时间，系统达到任一状态的概率趋于稳定——此例中，晴天概率约为60%，雨天概率约为40%。解读此矩阵的方法相对直观：若今日市场呈现"大幅下跌"，则次日有15%的概率仍为"大幅下跌"，30%的概率转为"小幅下跌"，依此类推。

2025-06-04 17:03:16 14

转载 5个开源MCP服务器：扩展AI助手能力，高效处理日常工作

MCP（Model Context Protocol）服务器技术应运而生，它作为AI与外部环境的"桥梁"，赋予AI模型实质性的环境交互能力。这五种MCP服务器各具特色：Stagehand在网络内容处理方面表现出色，Jupyter适用于数据分析场景，Opik提供了系统透明性，GitHub服务器为开发者提供便利，而FastAPI-MCP则提供了高度自定义的解决方案。初次成功配置并运行MCP服务器时，其扩展AI能力的效果令人印象深刻，如同为AI提供了与外部世界交互的新接口。

2025-06-03 10:02:29 10

转载【CMU博士论文】基于学习的方法应对多智能体主动搜索中的实际挑战

特别是**在存在观测噪声的前瞻性MAAS中采用去噪扩散采样（denoising diffusion sampling）**方法。，并以**多智能体主动搜索（Multi-Agent Active Search, MAAS）**框架为基础，重点聚焦于多机器人团队在搜索与救援、野生动物巡逻或环境监测等应用场景中的实践问题。MAAS涉及一个机器人团队（智能体）在其过去观测的基础上，决定何时、在哪里获取周围环境的信息，以估计不同目标物体（OOIs，感兴趣物体）的存在与位置。框架，用于主动搜索问题，并指出该问题在。

2025-06-03 10:02:29 10

转载 CVPR 2025 | 迈向可泛化的场景变化检测

为此，作者设计了初始伪掩码生成和几何语义掩码匹配模块，能够无缝地将用户引导的提示和基于单图像的分割转换为无需引导的双输入图像的场景变化检测。基于这些基础见解，作者通过将SAM的应用扩展到双时相图像，并利用不同层的多头特征面，而不是仅依赖单图像嵌入，扩展了对SAM特征空间的利用。尽管GIM为潜在的对象级变化提供了合理的掩码，但由于初始伪掩码中的噪声，会包含一组未变化的掩码。通过逐层分析，作者通过实验观察到，与初始层和中间层相比，最后一层的语义差异更为明显，因此在SSM过程中使用最终的图像嵌入。

2025-06-03 10:02:29 11

转载依托多模态LLM，强化时间序列推理效能

它结合了上下文感知、时间序列特征和高级推理，以提供更深入的见解、增强的可解释性以及处理需要超出时间序列本身的外部信息的复杂任务的能力。最后，作者强调了关键的研究方向，包括新颖的推理范式、架构创新和特定领域的应用，以推动 MLLM 在时间序列推理中的发展。此外，这些方法未能充分利用 LLM 的推理能力，仅停留在表层解释，而非更深入的时间和多模态推理。在 MLLM 用于时间序列推理的领域，当前面临的主要挑战包括数据集和代码的稀缺性、缺乏多样化的推理结构、缺乏统一的评估指标以及训练策略的局限性。

2025-06-02 17:02:13 18

转载 Pandas数据合并：10种高效连接技巧与常见问题

Pandas库中的merge和join函数提供了强大的数据整合能力，但不恰当的使用可能导致数据混乱。需要保留左侧DataFrame的所有记录，即使部分记录在右侧表中没有匹配项（例如，保留所有客户记录，包括无订单的客户）。优先保留右侧DataFrame的完整记录（例如，列出所有产品，包括未产生销售的产品）。：识别数据集之间的不匹配记录（例如，查找没有对应订单的客户或没有对应客户的订单）。保留左侧表的所有行，对于无匹配的记录，在来自右侧表的列中填充。可将外连接视为维恩图的完整实现，突显两个数据集的交集与差集。

2025-06-02 17:02:13 19

转载 ICML 2025 | RLHF太贵太慢？TPO即时对齐新方案，一句话指令搞定偏好优化

TPO 的一个核心优势，是它不仅可以在推理阶段实现即时对齐，更提供了灵活可调的“宽度 + 深度”推理拓展策略（test-time scaling），即通过控制每轮的候选生成数量（宽度）与迭代优化轮数（深度），显著提升输出质量与偏好一致性。如图 2 所示，在 TPO 迭代过程中，未对齐模型（SFT）的奖励得分曲线会逐步上升并超过已对齐模型（Instruct）的水平（图中虚线对应模型不经 TPO 时的固定得分基线）。更重要的是，TPO 背后的思想具有高度可扩展性：将优化过程“语言化”，再由模型自主理解与执行。

2025-06-01 17:02:18 41

转载首次实现纳米晶体端到端解析，哥大团队提出PXRDnet，成功解析200种复杂模拟纳米晶体

图表示被修改为有向多重图，以体现材料固有的周期性。总而言之，PXRDnet 以及其他方法的探索，实现了材料科学界从传统方法向着人工智能与材料科学交叉融合的方向前进，不仅实现了实质性的突破，解决了材料科学界所面临的难题，同时也为后续的研究提供了新的思路和方法，为今后材料学发展注入了新的活力。通常，纳米结构被定义为尺寸小于 1000 Å 的晶体，但为了测试所提方法的有效性，研究人员将晶体的尺寸降低了两个数量级，通过傅里叶分析的数学原理过滤方法，模拟了晶体尺寸为 10 Å 和 100 Å 的 PXRD 方法。

2025-06-01 17:02:18 41

转载【博士论文】自适应、鲁棒且可扩展的贝叶斯滤波方法用于在线学习

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。新浪微博：@数据派THU。

2025-05-31 17:01:47 25

转载 AAAI 25 | CATS:基于潜在类型约束与子图推理的上下文感知归纳知识图谱补全

将CATS与基于嵌入的方法（RuleN、TuckER）、基于GNN的方法（GraIL、Red-GNN、Adaprop）、基于文本的方法（KG-BERT）以及基于路径的方法（MINERVA、BERTRL、KRST和当前最优方法APST）进行对比。为了适应归纳式设定，GraIL和TACT等方法利用查询三元组头尾实体的相对距离来嵌入局部子图中的实体，但这种嵌入方式无法区分共享相同相对位置的不同实体，当查询三元组的子图规模较大时表现欠佳。然而，它们需要昂贵的重训练过程来处理未见实体，限制了在归纳式场景中的适应性。

2025-05-31 17:01:47 13

转载大型多模态推理模型技术演进综述：从模块化架构到原生推理能力的综合分析

该研究对大型多模态推理模型（Large Multimodal Reasoning Models, LMRMs）的技术发展进行了系统性梳理与分析。研究综述了该领域从早期模块化、感知驱动架构向统一、语言中心框架的演变历程，并提出了原生大型多模态推理模型（Native LMRMs, N-LMRMs）的前沿概念。论文构建了结构化的多模态推理发展路线图，精确划分了三个技术演进阶段及一个前瞻性技术范式。同时，论文深入探讨了当前关键技术挑战、评估数据集和基准方法，为理解多模态推理模型的现状与未来发展路径提供了理论框架，这

2025-05-31 17:01:47 8

转载【ICML2025】一图胜千言：一种可用性可保留的文本-图像协同擦除框架

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。新浪微博：@数据派THU。

2025-05-30 17:27:14 25

转载【ICML2025】FG-CLIP：细粒度视觉与文本对齐

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。新浪微博：@数据派THU。

2025-05-29 17:03:28 32

转载何恺明团队又发新作： MeanFlow单步图像生成SOTA，提升达50%

文章提出了一种名为 MeanFlow的单步生成建模框架，通过引入平均速度（average velocity）的概念来改进现有的流匹配方法，并在 ImageNet 256×256 数据集上取得了显著优于以往单步扩散 / 流模型的结果，FID 分数达到 3.43，且无需预训练、蒸馏或课程学习。总体而言，MeanFlow 的表现远超同类：它实现了 3.43 的 FID，与 IMM 的单步结果 7.77 相比，相对提升了 50% 以上。值得注意的是，本文方法是独立的，完全从头开始训练。

2025-05-29 17:03:28 24

转载字节Seed首次开源代码模型，拿下同规模多个SOTA，提出用小模型管理数据范式

今年年初，字节正式设立代号为“Seed Edge”的研究项目，核心目标是做比预训练和大模型迭代更长期、更基础的AGI前沿研究，项目成员拥有宽松的研究环境、独立计算资源，并实行更长期的考核方式。评分模型被要求给出一个从0到10的总体评分，并提供详细解释，之后将分数重新缩放到[0,1]范围，并使用1.3B参数的预训练Llama 2模型，通过回归头进行一个epoch的微调作为质量评分器。而技术论坛、问答平台等网站，虽然往往包含有价值的技术讨论和解决方案，但因其非正式的格式而得分较低。

2025-05-29 17:03:28 66

转载模型崩溃自救指南：5行代码实现TTA鲁棒性飞跃，天大×腾讯开源COME方案

中图中可见，从第 200 个 epoch 开始，在模型过度自信预测的同时，模型出现了预测准确率大幅下降的情况，我们把这种情况称作模型崩溃；从右图中的假阳性率的走势也可以看出，在模型过度自信预测的同时，模型几乎丧失了分类预测的能力。左图中可见，在逐个 epoch 的 TTA 过程中，Tent 方法和 SAR 方法都会持续地增强预测的信心，max softmax probability 值持续走高，出现模型过度自信预测的情况。机器学习模型在诸多领域已经取得了显著的成功，例如图像识别、自然语言处理和自动驾驶等。

2025-05-28 17:03:40 28

转载 RAG-MCP：基于检索增强生成的大模型工具选择优化框架

尽管性能随MCP数量（可选工具数）急剧增加而下降，但RAG-MCP在小到中等规模工具池中保持高成功率，且与基准方法相比，即使在大量干扰项存在时也展现出更强的鲁棒性。然而，随着可用工具生态系统的爆发式增长，一个新的技术挑战愈发凸显：LLM如何从庞大且持续扩展的工具库中高效准确地选择最适合的工具？可选的验证步骤提供了额外的质量保障。当用户发出查询（例如，"为我预订下周二前往伦敦的航班"）时，专用检索器（可能是较小规模的LLM或语义搜索算法）首先分析查询意图，然后在工具索引中搜索语义相似度最高的前k个工具描述。

2025-05-28 17:03:40 40

转载清华团队新作：无监督低光图像增强与去噪，效果惊艳！

表中比较的方法涵盖了监督学习方法（如 URetinexNet、SNR-aware、LLFormer、Retinexformer 和 Retinexmamba）、无配对学习方法（如 EnlightenGAN、PairLIE 和 Nerco）、以及无参考学习方法（如 ZERO-DCE、RUAS、SCI 等）。该框架基于物理成像原理和Retinex理论，通过生成具有不同光照和噪声水平的配对子图像进行训练，有效解决了真实世界低光照图像中复杂的退化问题，如局部过曝光、低亮度、噪声和不均匀光照等。

2025-05-27 17:01:25 41

转载 HiRAG：基于层级知识索引和检索的高精度RAG

后续工作将重点优化知识图谱的并行构建算法，并探索更高效的跨层级知识融合范式。朴素RAG方法检索与查询相关的文本块，这些文本块作为大型语言模型生成响应的参考，用于缓解“幻觉”问题（如生成不准确内容），然而朴素RAG方法仅检索文本片段，忽略了实体间的关联（如“亚马逊”与“AWS”的关系），导致上下文碎片化。具体而言，桥接层中的路径连接（如"亚马逊→AWS→云计算"与"亚马逊→贝佐斯→零售战略"）建立了局部实体与全局概念间的语义桥梁，使模型能系统化梳理企业业务版图，避免因知识层级割裂导致的逻辑矛盾或信息遗漏。

2025-05-27 17:01:25 44

转载独家｜为RAG准备好PDF

例如，使用语义相似性检索（在矢量存储中用于提取信息的技术），你可以提问去年某一公司的CFO是谁。在学习过程中越来越发现数据分析的应用范围之广，希望通过所学输出一些有意义的工作，很开心加入数据派大家庭，保持谦逊，保持渴望。定期的翻译培训提高志愿者的翻译水平，提高对于数据科学前沿的认知，海外的朋友可以和国内技术应用发展保持联系，THU数据派产学研的背景为志愿者带来好的发展机遇。一个是Docling，由IBM Deep Search开发的开源库，另一个是Marker，一个同样非常好的库。不过，缺点在于它的性能。

2025-05-26 17:04:58 15

转载【CVPR2025】ShotAdapter：基于扩散模型的文本生成多镜头视频方法

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。新浪微博：@数据派THU。

2025-05-26 17:04:58 11

转载加速LLM大模型推理，KV缓存技术详解与PyTorch实现

本文详细阐述了KV缓存的工作原理及其在大型语言模型推理优化中的应用，文章不仅从理论层面阐释了KV缓存的工作原理，还提供了完整的PyTorch实现代码，展示了缓存机制与Transformer自注意力模块的协同工作方式。例如，在第2步中，K1与第1步生成的K1相同。需要注意的是，生成的文本看似无意义，但这主要是由于计算资源和训练数据的限制，而非KV缓存技术本身的问题。在注意力头的实现中，系统通过线性变换生成Key、Value和Query，它们的形状均为(B, T, C)，其中C为头的大小。

2025-05-26 17:04:58 18

转载喜讯 | 清华大数据研究中心教学论文荣获2025年中国计算机研究生教育大会优秀论文一等奖

中国计算机研究生教育大会是针对计算机研究生培养方面的重要会议，本次会议以“推进分类发展，构建高质量研究生教育体系”为主题。该论文针对多学科交叉大数据研究生培养，分析实践教学的必要性，探讨大数据实践教育理念与培养定位，提出基于“双融合”与“双驱动”的“2+2”研究生实践教学模式，阐述多维度评价范式，介绍相应实施过程并说明教学效果。数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

2025-05-26 17:04:58 18

转载 Harmon：协调视觉表征，统一多模态理解和生成（模型已开源）

MAR 作为一种基于图像掩码建模的生成范式，沿袭了表征学习 MAE 的 Encoder-Decoder 框架，Harmon 的作者们发现 MAR Encoder 在图像生成训练中，同时学会对视觉语义的建模。实验中，相较于解耦理解生成的视觉编码器（图三d），Harmon 的协同视觉表征表征使理解 loss 能显著提升生成指标（图三b），显示出统一视觉表征对于生成理解协同进化的巨大潜力。不同于 Janus 割裂理解和生成的视觉编码，Harmon 探索在统一的视觉表征上协调图像理解和生成。

2025-05-25 17:01:59 20

转载 AAAI 25 | LightPROF：基于知识图谱的大语言模型轻量级推理框架

与使用纯文本提示的原生LLM和LLM+KG方法相比，LightPROF的显著改进表明，知识适配器生成的软提示能够比离散文本更有效地封装复杂的结构化知识——简洁、信息丰富且表达力强，从而增强LLM对知识图谱信息的理解。LightPROF通过结构化数据的高效集成与优化，提升了模型处理复杂知识图谱问题的能力。为实现小规模LLM的高效推理，设计了精细的知识适配器，能够有效解析图结构并进行细粒度信息整合，从而将推理图压缩为更少的标记（Token），并通过投影器（Projector）实现与LLM输入空间的全面对齐。

2025-05-25 17:01:59 23

转载 CVPR 2025｜多模态图像生成！图结构×大模型强强联手！

一种面向多模态属性图（MMAGs）的多模态大语言模型（MLLM）框架，支持从图中联合生成图像和文本。为解决图规模爆炸、图结构非欧几里得性质、模态层级依赖和推理顺序依赖等关键挑战，GRAPHGPT-O 引入了：PPR 采样机制，图结构线性化或层级表示方法，融合 Q-Former 的层次对齐器，适应多种生成策略的推理机制。凭借自适应图提示设计和专门的对齐技术，GRAPHGPT-O 实现了 MMAG 中的有效理解和内容生成，克服了与图拓扑和多模态属性集成相关的关键挑战。图1给出了模型的整体框架。

2025-05-24 17:01:23 45

转载【ICML2025】组合优化问题中的偏好优化

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。新浪微博：@数据派THU。

2025-05-24 17:01:23 19

转载 ICML 2025 | 大模型深度思考新范式：交替「推理-擦除」解决所有可计算问题

例如，一系列（公认）无法在多项式时间内解决却可在多项式空间内解决的 NP-Complete（如旅行商等等），对于使用有限精度 Transformer 的 CoT 而言至少需要超越多项式（例如 exp (n)）规模的上下文长度，在真实应用中由于内存的限制完全不可行；相比 CoT，PENCIL 能解决更大规模的推理问题。交替执行生成（图中加粗部分）和擦除（图中绿色高亮部分）：模型先写出新的思考过程，再删掉对之后的推理无用片段，只保留对后续的推理过程有用的部分，内部形成一系列隐式思维，最后仅返回最终答案。

2025-05-24 17:01:23 291

转载「不思考」反而更强？上海AI Lab重新定义视觉强化学习微调最优路径

原因可能是 2B 和 7B 基础模型在拼图任务上的推理能力较弱，因此在 RFT 过程中生成的推理链会妨碍学习过程，而 Think-After-Answer 的表现明显优于常规的带思考的 RFT。对于 7B 模型，三种方法的结果相似。因此，少样本微调成为了一个有前景的替代方法，尤其是在对比视觉-语言模型中的应用，但在自回归的 MLLMs 中的应用仍未得到充分探索，需要更深入的研究。而在 7B 模型上，三种方法在空间理解任务上的表现相似，但在数学问题上，带思考的RFT明显优于 No-Thinking-RL。

2025-05-23 17:02:45 41

转载 CVPR2025 | SAM赋能多模态图像融合：让每一滴语义信息都发挥价值

提出的双层优化驱动蒸馏机制结合创新的三元组损失函数，在训练阶段将主网络中包含SAM语义知识的复杂表征有效转移到轻量级子网络，使得在实际推理时子网络能够独立运行而无需依赖计算密集型的SAM模型，大幅降低了计算复杂度，同时保持了卓越的融合性能，极大提高了模型在实际场景中的应用价值。SPA模块通过特殊的持久存储库(PR)机制精准保留源图像的关键特征信息，并利用高效的交叉注意力机制将这些特征与SAM提取的高级语义信息无缝整合，实现了不同模态信息的深度融合，为生成语义丰富、结构清晰的高质量融合图像提供了坚实基础。

2025-05-23 17:02:45 25

转载卷积也能玩转自注意力？韩国团队用13×13大核卷积实现超分辨率性能突破！

首尔大学团队另辟蹊径，发现自注意力提取的特征在不同层间高度相似，于是用13×13大核卷积配合动态卷积核模拟自注意力机制，打造出兼顾性能和效率的ESC网络。图6揭示了ConvAttn模块的工作机理：当同时使用共享大核（LK）和动态核（DK）时，层间CKA相似度从单独使用LK的0.89降至0.83，说明动态核有效提升了特征多样性。这说明用大核卷积模拟自注意力后，模型仍能保持优异的长程建模能力。论文提出的卷积化自注意力模块，通过共享大核卷积和动态卷积核模拟自注意力的长程建模和输入依赖加权特性。

2025-05-22 17:02:57 42

空空如也

空空如也