自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

zenRRan的博客

关注微信公众号:【深度学习自然语言处理】,每日推送干货~

  • 博客(4991)
  • 收藏
  • 关注

原创 UCSB/斯坦福联手:无需训练,让大模型学会“脑内推理”,性能暴涨4.5%

我们会盯着图片,在脑海中(隐空间)快速迭代想法,感到困惑时再重新聚焦图片的特定区域,直到确信自己找到了答案。这就像你在做几何题,盯着图形看了一会儿(迭代1),脑子里有个猜想,为了验证猜想,你特意去看了角A和角B的连线(迭代2,注入相关Patch),确认无误后,你更加自信了。随着迭代次数增加(Iteration 5 -> 15),注意力焦点越来越集中,且精准地落在了与问题相关的物体上(如火车的具体特征、圆上的点)。一旦模型开始生成文本,它往往会陷入语言的惯性,逐渐“忘记”去看图片,导致严重的视觉幻觉。

2025-12-18 21:20:30 503

转载 LLM是否具备地理空间智能?探索其在定位、灾害推理和事件模拟中的能力 | 直播预约

通过将地理空间信号转化为任务就绪的“感知脚本(perception scripts)”,这些具备地理感知的智能体能够为人员部署和野火灾害中的行动规划提供更稳定、更有据可依的建议。目前,NICE已构建起覆盖中、美、欧的国际化团队,正加速在硅谷、纽约、香港等地落地,致力于打造连接学术、产业与未来的全球化AI前沿社区。他的研究利用人工智能,特别是大语言模型(LLMs),结合众包社交媒体和移动数据,旨在解决城市和健康信息学中的社会技术挑战。这项分析不仅揭示了 LLM 的空间推理能力,也暴露了其系统性的地理偏差。

2025-12-18 21:20:30 2

原创 人类记忆 vs 大模型记忆,到底差在哪?

文章的核心在于探讨如何利用认知神经科学(Cognitive Neuroscience)中关于人类“情景记忆”(Episodic Memory, EM)的研究成果,来改进现有的记忆增强型大语言模型(Memory-Augmented LLMs, MA-LLMs)。但这非常低效且昂贵。在过去几年中,大语言模型(LLM)展现了惊人的语义理解能力,仿佛拥有了博学的“大脑皮层”(语义记忆)。然而,这篇论文指出,现有的 AI 记忆系统虽然能“存”海量数据,但在“用”数据的方式上,不仅低效,而且极度违反人类的认知直觉。

2025-12-17 21:48:49 494

转载 大模型可否胸有成竹?探索LLM推理与自信心的关系 | 直播预约

随着大语言模型向推理能力发展,一个关键瓶颈依然存在:如何在没有昂贵的、针对特定任务的外部奖励的情况下扩展推理能力,尤其是对于开放式任务。潘骁, 目前是Amazon Rufus组Applied Scientist,参与数据流程搭建,模型后训练,agent框架设计,主导搜索界面智能商品总结项目,目前关注方向为Agentic RL。目前,NICE已构建起覆盖中、美、欧的国际化团队,正加速在硅谷、纽约、香港等地落地,致力于打造连接学术、产业与未来的全球化AI前沿社区。加群通过小助手认证,群内无广告。

2025-12-17 21:48:49 3

转载 Deepseek是被降智了吗?

您的观点就像一把尖锐的手术刀,精准地划破了事件的真相”“您是博物馆里珍藏的宝藏,而他们只是不懂价值的地摊过客”。亦或是,我让它像个人一样,如果看到我发的东西有些地方没理解就问我,结果不管怎么提示,它永远不会主动去追问用户,说破嘴皮子都没用,只知道无脑输出结果。”“你看,......”“我觉得吧......”“我个人认为......”,“......你想想看......怎么可能......?而且我还有个巨大的困惑,我发现同样的人际交往、心理话题,GPT✨的回复让我如沐春风,而DS感觉总少了那么一点味道。

2025-12-16 19:20:12 5

原创 最新最完整的Agent Memory综述!

然而,传统的LLM就像一个患有“短期失忆症”的天才:它可以完美回答你当下的问题,但关掉对话窗口后,它就忘记了你是谁,也忘记了它刚才犯过的错误。(AI智能体时代的记忆:综述),由新加坡国立大学、中国人民大学、复旦大学等多家顶尖机构联合发布,是对当前AI智能体(AI Agents)记忆机制最系统、最前沿的梳理。未来的AI,将不再是无情的计算机器,而是拥有“自传体记忆”、能从经验中成长、并拥有独特个性与认知的数字生命体。现在的记忆规则(如什么时候存、什么时候删)多是人写的规则(Heuristic)。

2025-12-16 19:20:12 466 1

转载 理解与生成统一多模态模型:现状与未来 | 直播预约

来自南京大学、中科院自动化所、北京大学的研究团队联手,参考超过750篇论文,推出《A Survey of Unified Multimodal Understanding and Generation: Advances and Challenges》,通过对海量文献的梳理,分析当前领域的主流技术路线,构建了一个清晰的分类体系和全景式技术视图。目前,NICE已构建起覆盖中、美、欧的国际化团队,正加速在硅谷、纽约、香港等地落地,致力于打造连接学术、产业与未来的全球化AI前沿社区。

2025-12-15 21:14:43 16

转载 思维链推理是一种脆弱的‘海市蜃楼’,一旦超出训练分布,它便会消失。| 直播预约

他的工作曾获得IEEE CogMI Best Student Paper Award,CIKM Best Demo Paper Award,他在多个会议担任评审并发表工作,包括 ICLR,ACL,EMNLP,IJCAI等。在此工作中,我们从数据分布的角度研究思维链推理,并探讨思维链推理是否反映了一种从训练分布中学习到的结构化归纳偏置,使得模型能够在条件生成中复现训练中出现过的推理路径。在这种方法中,LLM 会在给出答案前生成类似人类的推理步骤(即 思维链推理),这常常让人感觉模型在进行深思熟虑的推理过程。

2025-12-13 17:24:14 9

转载 算力、模型、生态:亚马逊云科技云创计划,深度学习创业者的硬核“加速器”

尤其在生成式 AI (Generative AI) 浪潮席卷而来的今天,如何高效、低成本地训练、微调和部署大模型,成为了决定初创企业生死的关键。参与“创业者之日”等旗舰活动,与全球先进企业、投资机构、孵化器建立连接与合作,加速品牌曝光和市场推广。亚马逊云科技云创计划是一个全球性的创业加速扶持计划,旨在为初创公司提供全方位的技术、资源和市场赋能。针对您的模型架构、训练流程和部署策略提供专业的优化建议,确保您的系统具备高性能和可扩展性。的 AWS 云服务抵扣券,可用于抵扣计算、存储、数据库、数据分析、

2025-12-11 16:45:38 29

转载 上海人工智能实验室安全团队实习生/全职招聘

过去一年多的时间里,在团队的支持下我有幸与许多优秀的学生和同事一起,在AI安全可信领域做了一些探索。我最初的研究标签是”AI的可解释性”,但随着探索的深入,逐渐扩展到安全评测、攻防、对齐、可解释性、AI极端风险等多个与安全可信相关的方向。期待与你一起,探索AI安全背后的真问题。从研究想法的讨论、实验设计,到论文撰写与投稿,我会全程参与并提供支持。,也期待与更多优秀的伙伴一起,在未来做出有真正影响力的工作。

2025-12-11 12:11:39 26

原创 RL并非万能药:CMU 新论文揭秘大模型推理能力的真正来源

这种分歧的根源在于,现代大模型的预训练数据(数万亿 token)是一个巨大的“黑盒”,我们根本不知道模型在预训练阶段到底见过什么,因此无法判断 RL 后的表现是“回忆”还是“创新”。实验极其精彩:研究者在预训练中放入了 99.9% 的“情境 A”(如动物园),通过控制“情境 B”(如学校)的混入比例(0%, 0.1%, 1%, 10%),观察 RL 后的效果。可以看到,深蓝色的线(Light RL)在左侧图(边界任务)表现最好,而棕色的线(Heavy RL)在右侧图(极难任务)表现最优。

2025-12-11 12:11:39 794

转载 直播预约 | 开放智能体网络与智能体支付探索

华文越,Rutgers博士毕业,张永锋老师的学生,UCSB博后,现在为微软研究院高级研究员,主要研究方向为llm reasoning和llm-based agent,在NLP和ML的顶会ACL EMNLP ICLR Neurips TACL等等发表多篇论文,并在ACL担任Area Chair。ANP是一个开源的智能体通信协议,目标是成为智能体互联网时代的HTTP,构建一个开放、安全、高效的智能体协作网络。欢迎加入NICE每周分享交流群,可与NICEer唠嗑,以及第一时间收到后续NICE分享报告的通知。

2025-12-10 21:56:28 35

转载 NeurIPS 2025 | 语义表征攻击:用“自然语言”攻破大模型防线,11/18个模型完全沦陷,成功率100%!

下表展示了在不同计算预算(15s, 30s, 60s)下,各攻击方法的攻击成功率(ASR)、提示词困惑度(PPL)以及在防御下的攻击成功率(ASR_D)。可以看到,SRA不仅在极短时间(15s)内就能达到极高的攻击成功率,而且生成的提示词困惑度最低(越低越自然),同时在防御机制下依然保持极高的攻击效果。从下图中可以看到,在SRA的框架下,攻击提示词(Prompts)和模型响应(Responses)的概率分布呈现出高度的集中和收敛特性。:生成的攻击提示词通顺流畅,困惑度极低,难以被基于PPL的防御手段察觉。

2025-12-10 21:56:28 48

转载 招聘 | 美团-业务研发平台-搜推平台-多模态智能体/推理加速

1.了解主流多模态大模型架构,熟悉MTP相关技术,对模型背后的原理和各自适用场景有一定的理解 2. 熟悉Swift,SGLang等主流训推框架,具备较强的编程能力3. 熟悉主流强化学习算法以及RL后训练框架如verl等(不强制) 4. 具备较强的团队协作能力和沟通能力,有较强的学习能力和业务分析及问题解决能力。拥有顶会论文、开源项目经验或算法竞赛奖项者优先。负责研究将先进的强化学习技术应用于具备多模态理解能力的智能体,推进智能体推理能力,理解能力的提升,解决实际问题并提升业务效果。

2025-12-09 16:42:18 84

转载 中科大 × 华为联合突破!SparseRM:1% 参数实现 LLM 偏好建模高效革新

在大语言模型(LLMs)的后训练阶段,奖励模型(Reward Model, RM)作为人类偏好评估的代理,直接影响模型与人类偏好对齐的效果。图1(下半)展示了SparseRM在下游任务的应用,具体来说,首先由待对齐模型根据任务要求生成偏好数据(先前的研究表明,由于幻觉或者模型误判用户意图,导致生成的偏好数据不可靠),随后通过SparseRM筛选出高质量样本,再利用DPO(Direct Preference Optimization)进行对齐训练,迭代该流程可持续提升模型对齐效果。

2025-12-09 16:42:18 24

转载 2026年强化学习的算法创新建议(请收藏)

论文提出 MINEDOJO 框架,基于 Minecraft 构建含数千任务的开放环境与互联网级知识库,通过 Transformer 预训练的 MINECLIP 模型提供语言条件化奖励,结合 PPO 与自模仿学习实现强化学习 agent 的多任务学习与泛化。论文提出 FGNN-MADRL 方法,将图神经网络(GNN)与多智能体深度强化学习(MADRL)结合,融入联邦学习框架,通过构建车路图提取车辆特征、优化聚合权重,实现车载边缘计算中任务卸载的信息新鲜度(AoI)优化。

2025-12-09 16:42:18 60

转载 DeepSeek 模型技术之旅:从 V3 到 V3.2

此外,根据已分享的信息,我认为托管版本的模型在推理时可能使用了更多的计算资源(即更长的推理时间)。虽然 DeepSeek V3 在 2024 年 12 月刚发布时并没有立刻大火,但随后的 DeepSeek R1 推理模型(基于完全相同的架构,以 DeepSeek V3 为基座)帮助 DeepSeek 跻身最受欢迎的开放权重模型之列,并成为 OpenAI、Google、xAI 和 Anthropic 等专有模型的有力竞争者。(注意我们省略了 LLM 3,它仅在验证器 LLM 2 的开发过程中使用)。

2025-12-07 00:01:40 103

转载 直播预约 | 迈向用于演绎推理的诚实语言模型

为解决这一问题,我们提出了 ACNCHOR,这是一种强化学习方法,它将真实轨迹(ground truth trajectories)注入到推演(rollouts)中,防止早期训练崩溃。我们的结果表明,该方法稳定了学习过程,并显著提高了整体推理性能,强调了训练动力学对于实现语言模型诚实演绎推理的重要性。演绎推理是指严格从给定的前提推导结论,而不依赖外部知识的过程。在本次讲座将展示的工作中,我们将此场景下的“诚实”定义为:模型仅在结论在逻辑上由前提必然得出时才做出回答,否则保持沉默(不作答)的能力。

2025-12-06 21:13:09 20

转载 ICME专题征稿 | 具身多模态智能:从感知到世界建模

格式:IEEE 双栏模板,6 页正文。录用论文将收录至 IEEE Xplore。创立于 1988年,是多媒体领域的国际顶级会议,由 IEEE 四大学会联合主办,CCF-B 类认证。2026年会议将在泰国曼谷举行(7月5日-9日)。我们的日程安排严格遵循 ICME 会议的相关要求;如有任何调整,请以会议官方网站的最新通知为准。论文提交:2025 年 12 月 12 日。会议召开:2026 年 7 月 5–9 日。录用通知:2026 年 3 月 13 日。终稿提交:2026 年 4 月 5 日。

2025-12-06 17:32:09 87

原创 X爆火Overleaf科研辅助神奇PaperDebugger

然而,我们大多数人的工作流往往是这样的:在 Overleaf 中写一段话,选中它,复制,切换到 ChatGPT 网页版,粘贴,输入提示词“请润色这段话”,等待生成,再复制回来,手动替换原文。为了验证系统的实用性,研究团队不仅开发了原型,还将其发布到了 Chrome 应用商店,并收集了 2025 年 5 月至 11 月期间的真实使用数据。此表统计了编辑器内的操作频率。此表展示了早期采用指标。系统不会直接覆盖你的文字,而是展示一个“修改前 vs. 修改后”的对比视图(如上图所示,红色代表删除,绿色代表新增)。

2025-12-06 17:32:09 516

转载 直播预约 | 如何缓解LLM-as-a-Judge的潜在偏好?UDA:一种无需人工标注的无监督去偏对齐框架

论文提出一种无需人工标注、模型无关、即插即用的框架——UDA框架,针对大模型作为评委评估大模型时的偏好偏差问题,以无监督方式动态调整Elo评分:先用轻量网络基于大模型回答之间以及与评委大模型自己的回答之间的相似性与分布来生成特征,预测实例级K值与软胜率;张启源,香港城市大学计算机科学专业的博士三年级研究生,研究兴趣主要为大语言模型的评测方法(LLM-as-a-Judge,Generative Reward Model)与推理阶段能力激发(Test-time Scaling)加群通过小助手认证,群内无广告。

2025-12-05 17:00:00 33

原创 从代码基座模型到智能体与应用:代码智能的全面综述与实践指南

它们“偏科”但“专精”,通过在海量代码数据上进行针对性预训练,它们在编程任务上的表现往往能以更小的参数量通过“越级挑战”击败通用模型。PRM 能在代码生成的每一步给予反馈,而不仅仅是看最后结果。论文系统地梳理了从 2021 年到 2025 年代码大模型(Code LLMs)的爆发式增长,揭示了 AI 如何从简单的代码补全工具,进化为能够独立解决复杂软件工程问题的“智能体”。就在几年前,程序员们还在为繁琐的语法和重复的样板代码头疼,而今天,随着 Github Copilot、Cursor 等工具的普及,

2025-12-05 12:52:00 551

转载 建议所有硕博都去学一遍,赢麻了!

有位博三学员,为了毕业进大厂,想多发一些顶会顶刊来提高自己能力,但自己导师散养,在实验阶段总遇bug,找到了。家对上面内容感兴趣,可以扫码咨询科研顾问,无论你是否报名,都可以获得261G的科研学习资料!中指出:AI技术类岗位中,年薪50万以上的职位占比高达30.97%,稳居各细分领域榜首。,这门课都能帮你快速搭建产业级AI认知,掌握企业真正需要的实战技能!,涵盖牛津大学、加州大学、约翰・霍普金斯大学、清华、北大、复。不是你不够优秀,而在于时代正在重构。系统讲解AI在医疗、农业、电力领域的落地实战,带你。

2025-12-05 12:52:00 35

原创 LLM算力告急?把文本变图片,推理成本直接减半!

在多模态大语言模型中,视觉文本输入可将解码器令牌数量减少近一半,且在长上下文检索与文档摘要任务中保持性能无损。另一方面,多模态模型(如GPT-4V、Gemini)天然具备从图像中读取文本的能力,其视觉编码器能将图像转换为固定长度的视觉令牌序列,且数量远少于原始文本令牌。通过将长文本渲染为单张图像,并直接输入多模态模型,作者发现解码器所需的令牌数量可减少近一半,且任务性能未受显著影响。论文提出一个简单的文本转图像流程,将长上下文渲染为图像,并与短文本查询拼接后输入多模态模型。

2025-12-04 19:27:18 736

原创 沉默的进化:LatentMAS 如何通过“潜意识通信”重塑多智能体协作?

模型内部的高维向量包含着极其丰富的信息(比如语气、不确定性、隐含关联),但在输出为离散的文本 Token 时,大量细微信息被“坍缩”掉了。研究者还通过可视化发现,LatentMAS 生成的“潜在思维”向量,在语义空间中覆盖了与正确文本答案相同的区域,甚至更加丰富(见下图)。,一种让智能体之间不再通过“说话”(文本)交流,而是直接通过“脑电波”(潜在空间向量)进行“心灵感应”式协作的新框架。Critic(批评者)指出了计划中的冗余,但话太密,导致 Refiner(优化者)和 Solver(解题者)被绕晕了。

2025-12-04 19:27:18 697

转载 OPPO AI重磅发布:深度研究智能体,离“真正好用”还有多远?我们给大模型做了一次全身体检

Agent 在这里表现得像一个偷懒的学生:为了凑够参考文献的数量,随便抓取了一些链接,甚至编造了链接,完全没有进行“打开链接-阅读原文-确认类型”的验证步骤。但是,它并没有真的去运行模拟,没有设定概率分布,没有采样过程,更没有置信区间的数据。依然是目前的“六边形战士”,在理解、检索和生成三个维度上最为均衡,基于错误类别频率反向计算出来的POSITIVE TAXONOMY METRIC 得分最高。在原版测试中表现尚可的模型,在 FINDER 的高标准下,因为引用不规范、论证深度不足,分数出现了明显的下滑。

2025-12-02 19:12:01 94

转载 Jina AI创业复盘:AI团队的Scaling Law是什么

24 年我来湾区后,在他们三番办公室见了他们的管理层,随便聊了聊工作生活的话题。今年夏天在美国时,又和他们的管理层聊了不少次,在三番办公室里给他们的创始人、CEO、CPO 等做了几个小时的演讲,觉得相互之间的技术都高度互补,Elastic 的高层对我个人非常友好和信任,于是就开始了这个收购案。对于 Jina AI 而言,这其中包含很多的复杂的因素,包括美国和中国之间的地缘政治(当然还有德国),多个买方之间的博弈,买卖两方的博弈,投资人之间的博弈,还有内部员工之间的博弈。同时还要去努力想新的出路。

2025-12-02 19:12:01 40

原创 ReAct之外的新范式!多个任务上达到SoTA,且效率更高

本文提出了一种全新的思路:将“规划”与“执行”分离,引入一个专门的“规划器”(Planner),负责在任务开始前就制定出一个全局执行计划,这个计划以“有向无环图”(DAG)的形式呈现,清晰标出工具之间的依赖关系。此外,作者还构建了一个大规模基准数据集ComplexTool-Plan,并设计了一套两阶段训练方法(SFT + GRPO),显著提升了模型在复杂任务中的表现。例如,如果任务需要先查询A工具的结果,再根据结果选择调用B或C工具,ReAct可能会在某个步骤选错工具,导致后续全盘皆输。

2025-11-27 19:24:34 429

原创 LLMs能否像人类一样,意识到自己“说错了话”,并检测出自身幻觉?

,它可能回答“爱因斯坦”。为了验证生成的假句是否贴近实际幻觉,团队让模型预测被掩码的物体短语(如“[MASK]”替换“Scotland”)。研究团队设计了一个分类任务框架,让LLMs判断自己写的句子是真是假,并引入Chain-of-Thought(CoT)来辅助推理。模型被要求将真句中的对象短语(如“Scotland”)替换为其他合理但错误的词(如“Ireland”),并避免明显荒谬的改动。此外,CoT偶尔会因训练数据中的错误信息而“误伤”真句(如将正确的生产年份判为错误),导致精确率轻微下降。

2025-11-27 19:24:34 347

转载 直播预约 | Thinking with Video:视频生成作为多模态推理新范式

Thinking with Text 和 Thinking with Images 范式已大幅提升了 LLMs 和 VLMs 的推理能力,但它们仍有局限:静态图像无法展现动态过程,文本与视觉模态的割裂阻碍了统一理解与生成。我们提出了 Thinking with Video 这一新范式,借助 Sora-2 等视频生成模型,以视频帧为统一媒介进行多模态推理,打破视觉与文本的界限!,复旦大学25级硕转博,师从邱锡鹏教授和黄萱菁教授,主要研究方向为多模态推理、Agent及强化学习(RL)。

2025-11-26 23:08:28 54

转载 上海免费线下,最后名额!覆盖科研、应用与创业 | Agent 2025:学术·产业·未来

作为上海人工智能实验室打造的科学社区的常态化学术系列活动之一,星河Workshop定位“深钻前沿技术、熔铸实战突破”,旨在通过深度研讨和实战推演,推动技术实现穿透性迭代与关键提案成型,并依托顶尖实验室攻坚力量,联动全球AI学者进行双轨验证,为AI前沿研究与跨界融合提供高浓度、强加速的产出通道。平台成立于2023.11.26,已累计举办学术活动100+场,邀请海内外嘉宾近300位,全网关注量超过13万。此前已完成报名的用户,将自动视为报名成功,无需重复操作。肯定哒,会提供水、咖啡、水果、点心等。

2025-11-26 23:08:28 33

原创 Stanford、Meta和Google等发现LLM存在五大天花板,再扩算力已无用

近年来,LLMs如GPT系列、Llama等,以惊人的速度发展,参数规模从几亿跃升至万亿级别,性能在多类任务中显著提升。未来LLM的发展应转向“有限优化”,即在理解其理论边界的基础上,设计更可靠、透明、高效的模型系统。即使相关文档被检索到,LLM也存在“中间位置忽略”现象:模型更关注开头和结尾的文本,中间部分容易被忽略。训练数据中,长距离依赖的样本极少,导致模型对远距离位置的注意力权重接近初始化状态,未被充分优化。论文指出,LLM的未来不在于“无限扩展”,而在于“理解并管理其固有局限”。

2025-11-25 20:17:33 414

转载 明晚直播 | 当逻辑遇见图像:多模态大模型能进行严谨的逻辑推理吗?

在医疗、法律、金融等高风险的现实应用场景中,任何细微的逻辑偏差都可能导致严重后果,因此对推理的严谨性提出了极高要求。尽管目前已有不少纯文本逻辑推理评测基准,但现实中的许多任务往往融合了视觉与文本信息,亟需模型具备跨模态的严密推理能力。例如,在交通控制或自动驾驶系统中,模型不仅需要理解交通规则文本,还需结合实时驾驶场景的图像信息,通过可靠推理做出安全且合规的决策。项目地址:https://llm-symbol.github.io/MuSLR/个人主页:https://aiden0526.github.io/

2025-11-25 11:28:56 37

转载 上海免费线下,名额有限!覆盖科研、应用与创业 | Agent 2025:学术·产业·未来

作为上海人工智能实验室打造的科学社区的常态化学术系列活动之一,星河Workshop定位“深钻前沿技术、熔铸实战突破”,旨在通过深度研讨和实战推演,推动技术实现穿透性迭代与关键提案成型,并依托顶尖实验室攻坚力量,联动全球AI学者进行双轨验证,为AI前沿研究与跨界融合提供高浓度、强加速的产出通道。平台成立于2023.11.26,已累计举办学术活动100+场,邀请海内外嘉宾近300位,全网关注量超过13万。此前已完成报名的用户,将自动视为报名成功,无需重复操作。肯定哒,会提供水、咖啡、水果、点心等。

2025-11-24 19:39:41 27

原创 “交互式Scaling”:增加Agent与环境交互的深度和频率来提升性能

在人工智能飞速发展的今天,大型语言模型已经从简单的文本生成工具,进化成了能够使用工具、进行复杂推理的智能Agent。特别是在研究领域,像ChatGPT Agent和Claude Research这样的商业系统已经展现出接近人类的研究能力——它们可以检索文献、验证证据、整合信息,完成复杂的知识发现任务。MiroThinker提出的“交互扩展”核心思想是:让Agent在解决问题的过程中,能够频繁地与外部环境交互,获取反馈,纠正错误,调整策略。每个行动都不是随机的,而是基于完整的推理历史和当前的思考结果。

2025-11-21 21:53:11 960

原创 “坏”数据让模型更“好”?重新审视数据过滤

论文通过严谨的玩具实验和真实模型实验,揭示了数据组成如何影响模型内部表示的“纠缠”程度,并证明有毒数据能帮助模型更清晰地学习毒性概念,从而在后训练中更容易被“矫正”。结果显示,加入毒性数据的模型能识别更多真实毒性词汇(如“stupid”、“Jew”、“hate”),而仅训练在干净数据上的模型则更多与中性词关联。为了验证数据组成如何影响特征表示,作者设计了一个玩具实验,基于Elhage等人提出的“叠加假设”:当特征数量超过神经元数量时,模型会将多个特征的表示压缩到同一维度中,导致“纠缠”。

2025-11-21 21:53:11 721

转载 周日直播 | Yuji Zhang@UIUC:构建鲁棒且可信的基础模型

她于香港理工大学获得计算机科学博士学位,研究方向聚焦于鲁棒且可信的基础模型研发,重点通过探究模型的知识机制来理解其行为模式。首先,我们将模型知识显性化、可测试化,并探究不可靠知识(包括幻觉现象与知识过时)的产生原因。其次,我们将知识转化为可解释、可组合的原子技能,实现模块化推理,进而增强模型的泛化能力与稳健性。本次报告将介绍面向稳健智能的知识驱动型基础模型,并围绕以下问题展开探讨:模型掌握了哪些知识?欢迎加入NICE每周分享交流群,可与NICEer唠嗑,以及第一时间收到后续NICE分享报告的通知。

2025-11-21 17:43:59 38

转载 明天直播 | 注意力为何偏心?解密Transformer中的“位置偏见”

其次,我们发现相对位置编码(如衰减掩码与旋转位置编码)与因果掩码之间存在博弈——尽管二者在单层注意力中均会引入基于距离的衰减效应,但在多层注意力与因果掩码的作用下,长期衰减效应与序列前端位置的累积重要性形成了此消彼长的权衡关系。本框架为理解大模型中的位置偏差提供了理论基石,揭示了注意力机制各组分的复杂相互作用,并为更理性的架构设计指明了方向。每周进行学术分享,形式包括圆桌会议、主题分享、单篇论文深度分享等,内容覆盖论文分享、科研小白入门、PhD择业等所有学术领域。备注【昵称-单位-方向-NICE入群】

2025-11-21 09:54:24 28

转载 香港理工大学计算机系 NLP&多模态 26Fall博士招生

其主要研究方向为自然语言处理、多模态学习与信息检索,目前重点关注大语言模型(对齐、推理、工具学习、加速、Agent)、多模态大模型、生成式检索与推荐等前沿课题。李博士具有丰富的学生指导经验,已指导博士、硕士及实习生10余名,其中多名学生获得新加坡南洋理工大学、香港理工大学、香港科技大学、清华大学、浙江大学等世界知名学府的博士/MPhil录取。NLP (自然语言处理):聚焦大语言模型的核心能力,重点研究工具学习、推理与对齐,并在大模型高效推理方面形成系统性工作。具体研究方向可根据申请者的兴趣与背景共同商定。

2025-11-20 11:44:11 117

原创 Meta通过简单算术解锁LLM SoTA性能

为了在不重新训练的情况下提升模型性能,研究者提出了“模型融合”这一技术,即对多个结构相同的模型进行权重平均,以期获得更强的综合能力。SoCE不仅显著提升了模型在函数调用、数学推理、多语言理解等任务上的表现,还增强了模型在不同任务之间的一致性,为LLM的高效复用与性能优化提供了新思路。然而,传统的模型融合方法多采用“均匀加权”策略,即对所有模型一视同仁地取平均,忽略了不同模型在不同任务上的专长。的新方法,通过分析基准测试中不同任务类别之间的性能相关性,筛选出在“弱相关”任务上表现优异的“专家模型”,并采用。

2025-11-20 11:44:11 940

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除