- 博客(6118)
- 收藏
- 关注
转载 AAAI 2025|利用语言模型实现跨异质性知识转移
首先,为了统一异质图的表示并尽可能多的保留异质图中的信息,我们在图1(a)中设计了一种基于元路径的语料库构建方法,通过节点/边文本化和元路径文本化,将不同的异质图转换为语料库。其次,为了利用标签稀疏的目标异质图中丰富的无标签节点信息,我们提出了图1(c)中的迭代训练流程,在该训练过程中,GNN为无标签节点生成软标签供LM微调使用,而LM编码的节点嵌入则作为GNN的输入。LMCH的核心思想是将不同异质图的表示统一为基于元路径的语言,进而使得LM自动从源异质图中提取通用知识,并将其转移至目标异质图中。
2025-05-17 17:01:15
23
转载 【ICML2025】通过概念对齐与混淆感知校准边界处理视觉-语言模型中的伪标签不平衡问题
数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。新浪微博:@数据派THU。
2025-05-17 17:01:15
20
转载 Perforated Backpropagation:神经网络优化的创新技术及PyTorch使用指南
这使树突能够专门识别神经元分类决策中的异常值模式,其理论基础类似于ResNet中的残差误差学习,但应用于单个神经元级别。本文详述的树突增强型神经元不仅从理论上突破了传统线性分类器的局限性,更在实践中展现出显著价值:提升模型精度的同时开辟了高效模型压缩的新途径。更引人注目的是,通过树突辅助压缩的模型能在参数减少44%的情况下保持原有性能水平,这对计算资源受限的边缘设备部署和大规模模型优化具有重要意义。更为显著的是,树突的引入使神经元计算能力增强,甚至可用于创建参数更少但保持高精度的压缩模型架构。
2025-05-17 17:01:15
14
转载 【NTU博士论文】当深度学习遇上归纳逻辑程序设计
数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。新浪微博:@数据派THU。
2025-05-16 17:02:23
31
转载 PyTabKit:比sklearn更强大的表格数据机器学习框架
该框架专为表格数据的分类和回归任务设计,集成了 RealMLP 等先进技术以及优化的梯度提升决策树(GBDT)超参数配置,为表格数据处理提供了新的技术选择。作为一种经过优化的多层感知器,通过在118个数据集上的基准测试和精细调优,已在中等至大型数据集(1,000-500,000样本)上展现出与GBDT相当的性能表现。随着表格数据在企业决策、风险管理和资源优化等领域的持续重要性,PyTabKit这类专为表格数据设计的现代框架将扮演越来越重要的角色。同时,对基数有限的分类特征采用独热编码,提高特征表达能力。
2025-05-16 17:02:23
48
转载 4大类AI Agent协议框架全面综述
MCP(Model Context Protocol):由Anthropic提出,是一个通用的上下文获取协议,允许AI代理通过标准化的方式与外部资源(如数据、工具和服务)进行交互。ANP(Agent Network Protocol):由开源社区开发,旨在实现不同代理之间的互操作性,构建一个开放、安全、高效的协作网络。AITP(Agent Interaction & Transaction Protocol):由NEAR基金会提出,支持代理之间的安全通信、协商和价值交换,特别适用于跨信任边界的交互。
2025-05-16 17:02:23
34
转载 多模态幻觉新突破!NUS、复旦团队提出跨模态偏好优化新范式,幻觉率直降55.5%
观察结果:在 6 个数据集中,LLaVA+CHiP 在其中 5 个上优于 LLaVA,表现出 CHiP 在提升幻觉对齐的同时,不影响通用能力,反而在 MMMU、LLaVA-Wild、MMB-CN 等任务上略有提升。(3)T 太大 → 信息丢失严重 → 模型区分太容易,弱化了视觉偏好学习。如图 2 所示,对比 LLaVA-1.6(图 2(a))与 DPO 增强的 LLaVA(图 2(b))可以发现:尽管后者在图像-描述表征对齐度和幻觉/非幻觉描述区分度上有所改进,但其优化效果与期望效果差距甚远。
2025-05-15 17:07:02
713
转载 性能准确率突破96%!上海算法创新研究院发布xVerify:面向推理模型的答案评估器
为了增强模型的跨场景泛化能力,他们特别在数据划分时确保训练集与泛化集覆盖不同的 benchmark 来源及 LLM,并设计了多种不同的数据增强策略来多样化已有的大模型问答样本(见下图),从而评估 xVerify 是否能适应多样化的真实评估场景,而不仅仅依赖特定的训练数据模式。VAR 数据集包含训练集(43204)、测试集(6122)和泛化集(6468),训练集和测试集用于训练和评估 xVerify 模型,而泛化集作为测试集的补充,用于检验 xVerify 在更多样化的评估场景中的泛化能力。
2025-05-15 17:07:02
54
转载 【CVPR2025】通过可扩展城市仿真迈向自主微型出行
目前的微型出行设备主要依赖人工操作(包括现场或远程控制),在面对充满不可预测障碍物与行人的繁忙城市环境时,存在安全性与效率方面的明显问题。——一个评估AI智能体实现自主微型出行能力的任务与基准套件。URBAN-BENCH 包含基于三项核心技能(城市移动、城市导航、城市穿越)的八个关键任务,用于全面衡量AI智能体的性能表现。数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。
2025-05-15 17:07:02
3
转载 【ICML2025】利用多样本推理优化语言模型的温度参数
多样本聚合策略(multi-sample aggregation strategies),如多数投票(majority voting)和 Best-of-N 采样,已被广泛应用于当代大型语言模型(Large Language Models,LLMs)中,以提升在各类任务中的预测准确性。数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。新浪微博:@数据派THU。
2025-05-14 17:02:01
20
转载 Jeff Dean演讲回顾LLM发展史,Transformer、蒸馏、MoE、思维链等技术都来自谷歌
的技术,可让模型推理速度更快。这样一来,你可以得到擅长不同任务的专家,比如有的擅长处理时间和日期,有的擅长地理位置,有的擅长生物学。部分原因是,他们最初在机器翻译任务上证明,用少 10 到 100 倍的计算量和小 10 倍的模型,就可以获得比当时最先进的 LSTM 或其他模型架构更好的性能。在这场演讲中,Jeff Dean 首先以谷歌多年来的重要研究成果为脉络,展现了 AI 近十五年来的发展轨迹,之后又分享了 Gemini 系列模型的发展历史,最后展望了 AI 将给我们这个世界带来的积极改变。
2025-05-14 17:02:01
12
转载 多主体驱动生成能力达SOTA,字节UNO模型可处理多种图像生成任务
针对于此,字节跳动 Intelligent Creation 团队利用扩散 Transformer 模型本身具备的上下文生成能力,生成了具有高度一致性的多主体配对数据,并以 FLUX 为基础模型提出了 UNO 模型,能够处理图像生成任务中的不同输入条件。其借助「模型-数据共同进化」的新范式,在优化模型性能的同时,丰富训练数据,提高生成图像的质量和多样性。1. 登录 hyper.ai,在「教程」页面,选择「UNO:通用定制化图像生成」,点击「在线运行此教程」。多主体驱动生成评测结果,UNO 达 SOTA。
2025-05-14 17:02:01
18
转载 【CMU博士论文】面向求真、复杂推理与人类价值的大规模语言模型可扩展对齐
我们的研究预见了这一未来,提出的各类框架不仅应对了当前的对齐挑战,还为在 AI 能力持续提升的背景下实现可控性和有益性奠定了基础。这些工作旨在引导未来 AI 系统的发展方向,使其在超越人类能力的同时,始终与人类的价值观和目标保持一致,从而推动人工智能技术在社会中安全且有益的发展。随着以 GPT-4 和 OpenAI Deep Research 为代表的大规模语言模型(LLMs)及具备推理能力的 AI 智能体呈指数级发展,通用人工智能(AGI)的实现时间表被大幅提前,其能力正以前所未有的速度扩展。
2025-05-13 17:01:53
24
转载 2025年GitHub平台上的十大开源MCP服务器分析
在云原生技术快速发展的背景下,这一服务器的出现标志着AI技术与容器编排系统的深度融合,为自动化基础设施管理和智能运维提供了技术支持,显著提升了云环境管理的智能化水平。ChatMcp的出现解决了MCP服务器碎片化的问题,为开发者提供了一站式的开发和测试环境,显著提升了AI工具开发的效率和体验。正日益凸显其战略价值。这些服务器作为连接AI与现实世界的技术桥梁,实现了人工智能模型与现实应用程序、API接口、数据库及自动化工作流程之间的有效交互,从根本上扩展了AI代理的功能范围与应用边界。
2025-05-13 17:01:53
225
原创 原创|DeepSeek动态知识更新——以DeepSeek-R1为例
核心逻辑:动态知识图谱技术的核心目标,是解决传统知识图谱在实时性、时序性和动态演化能力上的不足。DeepSeek的动态知识更新技术,通过引入流式计算、时序建模和增量学习,实现了知识图谱的实时感知、快速响应和持续演化。随着技术的不断发展与应用的不断拓展,DeepSeek的动态知识更新技术将在更多领域发挥重要作用,推动人类文明的进步与发展。DeepSeek推出的DeepSeek-R1系统凭借创新的动态知识更新技术,成功打破了传统知识图谱的静态局限,实现了从静态知识表示到动态实时推理的跨越。
2025-05-13 17:01:53
1049
转载 Hybrid-RRF:动态权重混合检索RAG方案
例如对于查询"新能源汽车政策",某政策文件在 BM25 排名第 2,向量检索排名第 3,假设权重分配为 0.4:0.6,则其 WRRF 得分为:(0.4/(2+0.00001)) + (0.6/(3+0.00001)) ≈ 0.33,这个加权分数将决定文档在最终结果中的排序位置。技术原理上,Hybrid-RRF 通过动态加权融合稀疏检索的关键词匹配能力(如 BM25 的精确术语匹配)和稠密检索的语义理解能力(如 Sentence-BERT 的上下文编码)。准确率达 92%,比基线提升 19%。
2025-05-12 17:02:32
107
转载 Chaos:数据驱动的复杂系统建模特刊概览
2021年诺贝尔物理学奖将聚光灯投向复杂系统科学,揭示了系统背后的隐藏规律:从神经网络到生态演化,从病毒传播到金融震荡,那些广泛存在的涌现现象,例如,同步、混沌、相变等,都源自系统内部自组织的网络结构,而非中央控制器。整合信息分解(Φ-ID)允许人们探索信息在系统各部分之间流动的模式,文章使用Φ-ID框架对计算机和体外数据进行分析,将通常的传递熵测度分解为协同、冗余和特有信息传递模式,证明了特有信息传递是从网络活动数据中揭示结构拓扑细节最相关的度量,而冗余信息仅为该应用引入了剩余信息。
2025-05-12 17:02:32
1939
转载 【WWW2025教程】人工智能在复杂网络中的应用:潜力、方法与应用
本教程将探讨一个令人着迷的研究领域:通过人工智能(AI)技术对经验网络(empirical networks)进行建模,并展示其在社交媒体、网络系统以及城市环境等多个领域的实际应用。教程将重点围绕两个核心内容展开:首先,提出一个新颖的分类体系,该体系将复杂网络中的六大关键研究问题与相应的AI方法进行系统归类;其次,展示AI增强型网络建模工具在多个应用领域中的实际使用案例。通过本教程,参与者将掌握如何在现实场景中实施与调整AI工具,以实现对复杂网络的分析、预测与管理,从而具备应对多样网络问题的实践能力。
2025-05-12 17:02:32
29
转载 【NYU博士论文】神经网络中的简单结构:论表达能力、优化性与数据分布
我们在一个可控的合成实验设置中,从实证与理论两个角度对这一分解方法进行了研究,发现前馈层(feed-forward layers)更倾向于学习如二元语法(bigram)等简单的分布关联,而注意力层则主要负责上下文内的推理。方面,我们研究了一类简化的图网络——图增强多层感知机(Graph-Augmented Multi-layer Perceptrons, GA-MLPs)的函数类,并与经典图神经网络(Graph Neural Networks, GNNs)进行了对比。我们从三个方面展开探讨。
2025-05-11 17:01:20
21
原创 科普之旅|解锁DeepSeek实用技能,让AI为你所用
但AI可不只是个搜索引擎,要是你希望它在对付数学难题的时候,能像个“数学大神”一样深入思考,有个堪称“秘密武器”的万能提示词:“请在你的思考分析过程中进行批判性思考、同时反面考虑你的回答,并且要对回答进行多次深入复盘,务必详尽。比如,你热衷旅游,想为亲子家庭规划一次去成都的五日游,就可以这样说:“你是旅行规划达人,擅长打造亲子旅游路线,我是准备带孩子出游的家长,需求是规划成都五日游行程,要求涵盖适合亲子的景点与活动,面向亲子家庭人群。刚开始对话,别绕圈子,直接把你的需求和相关背景讲清楚。
2025-05-11 17:01:20
677
转载 覆盖40+主流模型及数据集,上海交大团队发布一站式蛋白质工程设计平台VenusFactory,一键部署教程已上线
研究人员比以往任何时候都更需要全面、高质量的蛋白质数据集,更强大、更具影响力的蛋白质人工智能模型,以及更高效、标准化的分析平台,以便在海量生物数据中精准挖掘有价值的信息,加速新蛋白的设计与优化,推动生物医药、合成生物学等领域的创新突破。针对于此,用户友好的低代码应用逐渐成为现代开源工具使用的主流趋势,其能够帮助研究人员摆脱复杂的模型配置与代码实现,让计算机科学家和生物学家都能以更加便捷的方法调用或训练深度学习模型,专注于科学研究本身。点击 Manual,选择语言,可以看到每个模块的详细使用指南。
2025-05-11 17:01:20
44
转载 【CMU博士论文】语境:表征学习的机制
先前的工作对不同的表征学习方法进行了各自不同的处理,而语境结构理论则提供了一个统一的框架,用于阐明这些方法学习到的表征。我们证明了,如果一个编码器捕获了这种关联的最大信息,在这种情况下我们说编码器学习了“语境结构”,那么它将在与该上下文兼容的任务类上达到最佳表现。语境结构理论的重要含义是,仅仅增加模型规模将带来递减的回报,而进一步的进展需要更好的上下文。对表征学习的科学理解至关重要,尤其是在模型规模扩展已经呈现边际效益递减的情况下,设计新的预训练方法成为进一步发展的必要条件。
2025-05-10 17:01:56
16
转载 ICLR 2025 | 精度近乎无损!首个Mamba系列模型量化方案MambaQuant
总体而言,Table 1 通过对比不同量化方法在多种 Mamba 模型上的性能,清晰地展示了 MambaQuant 方法的优势,表明其能够在量化权重和激活时保持极高的精度,尤其是在 8 位量化(W8A8)和 4 位量化(W4A8)配置下,显著优于现有的量化方法,是一种非常实用且有效的量化解决方案。在离线模式中,KLT 增强的旋转方法能够有效平衡不同通道的方差,使得量化前的数据分布更加均匀,从而提高量化精度。论文地址:https://arxiv.org/pdf/2501.13484。
2025-05-10 17:01:56
21
原创 原创|大模型分布式训练中的关键技术:数据并行(二)
在“必要存储”这一类别中,包含了模型的参数、优化过程中的动量以及方差,这些数据均采用32位浮点数(即fp32格式)进行存储,每项数据占用的空间为4Φ,整体累计占用空间为12Φ。Residual States是训练过程中额外会产生的内容,包括前向计算得到的激活中间结果,存储待反向传播时计算梯度使用,还有临时存储,即模型实现中的其他计算临时变量,这些用完后尽快释放。(2) 对梯度做一次环状全归约,得到完整的梯度,对All-Reduce不熟悉的朋友可以去看数据并行的上一篇文章,这个过程里产生的单卡通信量是2Φ。
2025-05-10 17:01:56
968
转载 【博士论文】物体学习与鲁棒的三维重建
我们对物体的感知通常不是原子式的,有时是任务依赖的。心理学研究提到过格式塔法则,作为我们在没有监督的情况下寻找物体的线索。拥有正确的基础,使机器能够在没有监督的情况下识别场景中的物体,可以减少对手工标注训练数据集的依赖。本文的最后部分集中在三维应用中,目标是从输入图像中检测和去除感兴趣的物体。在这些任务中,我们利用三维场景的几何一致性来检测不一致的动态物体。我们的瞬态物体掩码随后用于设计鲁棒的优化内核,以改进随意拍摄设置下的三维建模。此外,我们提出了在不需要监督的情况下定义感兴趣物体或前景物体的可能方向。
2025-05-09 17:02:06
40
转载 如何去掉GRPO的长度bias?Sea AI Lab提出全新优化方法,有效提升令牌效率和推理性能
DeepSeek-R1-Zero 的提出,突破了传统的训练方式,通过引入 R1-Zero-like 训练范式,展示了强化学习在提升 LLM 推理能力中的巨大潜力。实验首先采用无模板的方式进行测试,然后使用 R1 模板和 Qwen-Math 模板,并通过 GPT-4o-mini 判断模型的回答是否为问答格式,最后评估模型在不同模板下的 Pass@8 准确率。研究表明,在大规模语言模型的 RL 训练中,规模的扩大既可以有效提升性能,也能提高效率——有时,简单的优化方法反而更为高效。
2025-05-09 17:02:06
1227
转载 用离散标记重塑人体姿态:VQ-VAE实现关键点组合关系编码
通过实验验证,采用在引入向量量化之前独立预训练编码器的策略,或结合承诺损失调整与EMA更新等技术,可以有效缓解这一问题,确保码本的充分利用和模型的稳健学习。在这一过程中,每个连续的标记向量都被码本中最相近的离散代码向量替换,从而将姿态表示转化为一组符号化的离散表示。如果我们转换思路,将姿态表示为一组学习到的、离散的标记(token)组合,这些标记不仅仅编码原始坐标或热图信息,而是捕获关键点之间的共享模式、对称性和结构化关系,会带来怎样的优势?在这一阶段,我们采用自监督重建策略来训练码本和姿态解码器。
2025-05-09 17:02:06
32
转载 最大化挖掘临床MRI数据价值,UCL团队提出MindGlide模型,实现多发性硬化症病变量化
因此,如何简化 MRI 分析就成为解决问题的关键,尤其是通过单对比度脑容量计算,既可以减少多重对比采集的需求,又可以降低临床试验成本。随后,研究人员进行了针对病变治疗效果的纵向验证,涉及多项实验,证明了 MindGlide 在治疗效果检测方面的有效性,如在 SPMS 和 PPMS 试验中,治疗组的病变体积累积量低于安慰剂组;近年来,人工智能的快速发展,使其在神经系统疾病方面的应用不断加快,并且由于其独特的工作机制和高效的方法,为医学界通过人工智能进行 MS 研究提供了新的思路。整体架构及策略如下图所示。
2025-05-08 17:16:23
344
转载 深度学习的平衡之道:港科大、港城大等团队联合发布多目标优化最新综述
值得注意的是,在大语言模型(LLM)与生成式 AI 系统的多维度价值对齐(Multi-Dimensional Alignment)领域,如何协调模型性能、安全伦理边界、文化适应性及能耗效率等多元目标,已成为制约人工智能系统社会应用的关键挑战。我们也认识到,当前的工作可能未能完整涵盖该领域的所有研究成果,如果你有任何建议或补充,欢迎访问我们的 GitHub 仓库,并提交 Issue 或 Pull Request,让我们携手推动这一领域的发展,共同进步!,确保解集中的解彼此远离,从而提升分布均匀性。
2025-05-08 17:16:23
731
转载 【SIGIR2025】在缺失模态场景中解耦与生成推荐模态
DGMRec从信息角度出发,将模态特征解耦为通用模态特征和特定模态特征,从而为推荐提供更丰富的表示。在此基础上,它通过整合其他模态的对齐特征和利用用户模态偏好生成缺失的模态特征。大量实验表明,DGMRec在具有挑战性的场景中(包括缺失模态、新项目设置、不同缺失比例和模态缺失的不同级别)始终优于现有的最先进的MRS。此外,DGMRec的基于生成的方法使得跨模态检索成为可能,这在现有的MRS中是不可行的,突显了其适应性和在现实应用中的潜力。这些问题导致在实际场景中,当某些模态缺失时,推荐系统的性能显著下降。
2025-05-08 17:16:23
39
转载 WSDM 2025 | 从谱视角揭开推荐系统流行度偏差放大之谜
这要从数据的长尾分布开始说起,用户行为数据和物品的流行度通常呈现长尾分布,而推荐模型在这样长尾分布的数据上训练学习,不仅会继承这种倾斜的分布,甚至会放大,导致热门物品被过度推荐。1. 流行度记忆效应:推荐模型的评分矩阵的最大奇异向量(第一主成分)与物品的流行度向量高度相似,最大奇异向量几乎完全捕获了物品的流行度特性。,通过在推荐模型的损失函数中引入谱范数正则项,约束评分矩阵的谱的权重(最大奇异值),从而缓解流行度偏差。分别表示用户和物品的嵌入矩阵)谱范数来避免直接处理庞大的矩阵,从而提高计算效率。
2025-05-07 17:02:43
28
转载 【ETZH博士论文】深度神经网络的数学理解
第三,非线性激活函数的选择显著影响网络的表示能力和训练动态,因此我们考察了ReLU [NH10] 和双曲正切等流行选择,探索它们对信号传播的影响 [GBB11;对信号传播的更深入理解可以指导更好的网络初始化设计 [GB10a]、更有效的网络架构设计 [He+16a] 以及更高效的优化算法 [KB14]。我们描述了导致秩崩塌和梯度不稳定的条件,并提供了归一化技术和初始化方案有效性的理论见解,提出了改善非常深层网络中信号传播和训练动态的途径。当考虑到训练深度神经网络的挑战时,信号传播的重要性变得尤为突出。
2025-05-07 17:02:43
22
转载 从数据集到开源模型,覆盖无机材料设计/晶体结构预测/材料属性记录等
从基于物理模型的传统计算方法,向基于数据驱动的智能预测过渡,不仅依赖于算法性能的提升,更依赖于高质量材料数据的支撑。LLM4Mat-Bench 是一个用于材料属性预测的多模态语言模型评估数据集,收录了约 197 万条晶体结构样本,来自 10 个公开材料数据库,涵盖 45 种不同的材料物理与化学属性,是迄今为止用于评估大型语言模型 (LLM) 用于材料性能预测的性能的最大基准。,涵盖量子材料、无机材料、晶体结构等多个关键方向,让复杂庞杂的材料数据,真正为研究者服务。
2025-05-07 17:02:43
674
转载 比扩散策略更高效的生成模型:流匹配的理论基础与Pytorch代码实现
在每个时间步,我们将速度场v添加到x,目标是使生成的x分布近似于从目标分布N(2,0.5)中抽样得到的分布。这里,我们用函数q()表示添加噪声的过程。如下图所示,在时间t=0时,样本主要分布在-2和2之间,而在t=1时,样本围绕2集中,并表现出更高的密度(因为N(2,0.5)的方差小于原始方差)。由于每个像素本质上是遵循高斯分布的随机变量,随机图像(右上)实际上就是一个均值为128且方差相对较大的高斯分布(右下),而包含有意义内容的图像(左上)则是均值等于实际像素值且方差相对较小的高斯分布(左下)。
2025-05-06 17:01:59
37
转载 【CVPR2025】基于离散扩散时间步令牌的生成式多模态预训练
近期在多模态大型语言模型(MLLMs)领域的研究致力于通过结合大型语言模型(LLM)与扩散模型(分别在各自任务中处于最先进水平),实现视觉理解与生成的统一。然而,我们指出,空间令牌缺乏语言中固有的递归结构,因此形成了一种大型语言模型难以掌握的“不可学习语言”。在本文中,我们通过利用扩散时间步来学习离散的、递归的视觉令牌,从而构建了一种合适的视觉语言。这一方法使我们能够有效整合大型语言模型在自回归推理方面的优势与扩散模型在精确图像生成方面的优势,在统一框架内实现无缝的多模态理解与生成。
2025-05-06 17:01:59
18
转载 强化学习带来的改进只是「噪音」?最新研究预警:冷静看待推理模型的进展
如图 8 所示,在 AIME'24 上,OpenRS - 1.5B 的性能差异高达 8%,DeepSeek - R1 - Distill - 7B 的性能差异为 6%,在 AMC'23 上也观察到了类似的趋势。在 AIME 和 AMC 基准测试中,结果采用了十个随机种子的平均值,而其他基准测试则使用了三个随机种子的平均值。「受推理领域越来越多不一致的经验说法的推动,我们对推理基准的现状进行了严格的调查,特别关注了数学推理领域评估算法进展最广泛使用的测试平台之一 HuggingFaceH4,2024;
2025-05-06 17:01:59
89
转载 ICLR 2025 | ECI:一种能改善时序共形推断性能的损失函数
本文介绍一篇 ICLR 2025 接收的工作,该工作提出的 Error-quantified Conformal Inference(ECI)方法通过平滑分位数损失函数,引入连续的反馈机制,能够更准确地捕捉覆盖误差的动态变化,改进在线共形推断在时间序列预测中的性能。在时间序列预测中,现有的在线共形推断方法(如 ACI)通过在线梯度下降(OGD)更新预测区间的阈值,但这些方法仅使用二元反馈(即是否覆盖真实标签),忽略了误差量化(即非一致性分数与当前阈值之间的距离)。
2025-05-05 17:01:50
396
转载 【NYU博士论文】面向开放世界的人工智能:学习原则
因为在特定任务中获得的能力对处理其他任务几乎没有帮助,针对特定任务制定的有价值标准在面对更广泛、未知的任务时也无能为力。要实现面向开放世界的 AI,需要不同于构建封闭世界 AI 的独特学习原则和创新技术。本论文探索了构建开放世界 AI 所需的重要学习原则,包括丰富特征(类比为一套庞大的工具箱)、解耦表示(类比为一套井然有序的工具箱)以及推理时学习(类比为一只灵活运用工具的手)。在这些学习原则的指导下,论文进一步提出了利用这些原则的创新方法,并进行了大量大规模实验以验证这些学习原则的有效性。
2025-05-05 17:01:50
38
转载 频率派与贝叶斯统计在营销组合建模中的应用比较:隐私优先时代的方法选择
当你面对的是有限、嘈杂或稀疏的数据集,例如新产品发布或早期阶段的营销活动;从本质上讲,MMM是一种基于回归分析的技术,用于量化各类营销活动(如电视广告、数字媒体投放、广播宣传、印刷媒体、促销活动)以及非营销因素(如季节性变化或节假日效应)对目标业务指标(通常是销售量或转化率)的影响程度。各渠道投资回报率(ROI)的精确计算(每投入一单位货币产生的收入)、各营销渠道对总体业绩的贡献比例、不同支出水平下的饱和度与边际效益递减情况,以及广告效应的时间衰减模式(广告活动影响的持续时长)。
2025-05-05 17:01:50
244
转载 ICLR 2025 | LLaVA-MoD:MoE蒸馏训练轻量化多模态大模型
偏好蒸馏受到离散描述偏好优化(DPO)进展的启发,将教师MLLM视为参考模型,发挥关键作用,因为它提供了“好”和“坏”的见解,从而为学生模型建立一个基本参考。具体而言,训练目标是优化学生模型,使其在区分正面和负面响应时,为正面响应分配比教师模型更高的概率,同时为负面响应分配比教师模型更低的概率。随着开源MLLM的增多,利用大型MLLM(l-MLLM)作为教师通过蒸馏其丰富的知识到s-MLLM,成为一种可行的研究方向。s-MLLM的研究主要集中在数据收集和过滤机制上,以确保训练数据的高质量。
2025-05-04 17:01:16
21
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人