LLM Weekly
文章平均质量分 78
本专栏主要是周更新,每周日更新一周内的LLM相关新闻,github库,以及这周值得关注的论文。
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
LLM Weekly(2026.1.19-2026.1.25)
MCP并非问题根源,问题在你的服务器:搭建MCP服务器的最佳实践。高性能的MCP服务器会将该协议视为智能体的交互接口,而非简单的REST封装器:这类服务器会提供以结果为导向、扁平化且文档完善的工具,精简并清晰命名功能模块,对大容量结果进行分页处理,同时与技能插件形成互补——技能插件负责提供更高层级的工作流和指令,而非结构化的工具模式。该团队通过融合领域并行的专家训练、基于DORA的大规模异步强化学习、噪声感知的训练流程,以及新增的“深度思考模式”,全方位提升了模型的泛化能力、鲁棒性和推理阶段的表现。原创 2026-01-28 16:17:46 · 27 阅读 · 0 评论 -
LLM Weekly(2026.1.12-2026.1.18)
人工智能公司Anthropic面向Claude Max订阅用户,在macOS版Claude应用中推出了一项名为Cowork的研究预览功能。该功能允许用户授权Claude访问指定文件夹,实现文件的读取、编辑与创建操作。Cowork具备更强的自主执行能力,可完成多步骤任务,还能通过各类连接器与技能组件处理文档和演示文稿,同时支持任务队列管理,所有操作均需用户审批后方可执行。Anthropic同时提醒用户,该功能存在执行破坏性操作以及遭遇提示词注入攻击的风险。原创 2026-01-21 11:00:00 · 186 阅读 · 0 评论 -
LLM Weekly(2026.1.5-2026.1.11)
OpenAI 推出了 ChatGPT Health,这是一个专属加密空间,可将用户的医疗记录和健康类应用程序与 ChatGPT 相连接,从而提供个性化的非诊断性健康指导。该服务采用数据隔离机制,健康相关对话内容不会用于模型训练,同时支持多重身份验证(MFA)。OpenAI 联合 260 余名医生参与了该功能的研发与评估工作,目前已开放候补申请通道,初期服务范围暂不包含欧洲经济区、瑞士以及英国。原创 2026-01-20 09:36:42 · 145 阅读 · 0 评论 -
LLM Weekly(2025.12.29-2026.1.4)
深度求索提出全新训练方法,助力中国人工智能能效提升 深度求索发布一篇关于流形约束超连接(Manifold-Constrained Hyper-Connections) 的论文,该训练框架可提升大型人工智能模型的可扩展性,同时降低算力与能耗需求。研究团队基于字节跳动2024年的技术成果,对参数量从30亿到270亿不等的模型展开测试。此项研究先于深度求索备受期待的R2模型问世,分析人士指出,即便面临美国的芯片限制,该模型仍有望再度颠覆全球人工智能领域格局。谷歌在NotebookLM平台测试30分钟音频课程功能原创 2026-01-08 10:11:22 · 127 阅读 · 0 评论 -
LLM Weekly(2025.12.15-12.21)
OpenAI推出由其最强文本生成图像模型驱动的ChatGPT图像功能,该功能已向所有ChatGPT用户及API调用用户开放。这款模型指令遵循精度更高,在图像编辑过程中能精准保留光影、构图与人物肖像特征,优化了密集文本渲染效果和小尺寸人脸画质,图像生成速度提升高达4倍。新增的图像侧边栏功能,提供预设风格模板、热门提示词以及可重复使用的肖像上传功能。。谷歌推出Gemini 3 Flash模型,将其部署为Gemini应用及AI搜索模式的默认模型。原创 2025-12-24 16:55:58 · 48 阅读 · 0 评论 -
LLM Weekly(2025.12.8-12.14)
Reflexion、STaR、STaSC、自我挑战智能体、SEAL、SICA、Voyager以及自我提升型EFM等方法,能够将交互轨迹、自主生成的任务、代码或权重编辑转化为稳定的性能提升,同时外部测试和严格的验收规则会限制不安全或倒退的变更。该智能体存储简洁的引理,进行多轮分层推理,并通过OREAL-H强化学习框架进行训练,在2025年国际数学奥林匹克中获得银牌,在2025年中国数学奥林匹克中获得金牌,在多个基准测试中的表现超过了先进的LRM模型。命令检索过往的结果、失败经验和超参数。原创 2025-12-16 14:58:05 · 344 阅读 · 0 评论 -
LLM Weekly(2025.12.1-12.7)
原创 2025-12-10 15:10:43 · 651 阅读 · 0 评论 -
LLM Weekly(2025.11.24-11.30)
FLUX.2 可生成和编辑最高 400 万像素图像,支持最多 10 张参考图,在照片级真实感、文本渲染和提示词遵循度方面均有提升,采用潜在流架构(latent flow architecture)并结合 Mistral-3 24B 模型。:深度求索(DeepSeek)发布开源权重模型 DeepSeekMath-V2,其性能比肩 OpenAI 和谷歌——不仅获得 2025 年国际数学奥林匹克(IMO)金牌,还在 2024 年普特南数学竞赛(Putnam)中取得 118/120 的高分,超越顶尖人类选手成绩。原创 2025-12-04 10:00:00 · 336 阅读 · 0 评论 -
LLM Weekly(2025.11.17-11.23)
原创 2025-11-25 11:04:07 · 636 阅读 · 0 评论 -
LLM Weekly(2025.11.10-11.16)
尽管各组织对员工规模的预期存在差异,但64%的组织认为AI能促进创新,不过仅有39%的组织表示AI对息税折旧摊销前利润(EBIT)产生了显著影响。文章解决了内存使用和效率方面的挑战,探索了梯度检查点技术,并测试了多种优化策略,以提升模型的训练吞吐量和平均浮点运算利用率。评估显示,它在效率上超越了推测解码和其他扩散模型,每秒生成的令牌数量提升4.71至5.91倍,同时保持自回归模型的质量水平。该模型实现了150毫秒内的实时转录,支持英语、法语、西班牙语等多种语言,在30种语言中的准确率达到93.5%。原创 2025-11-20 14:25:49 · 482 阅读 · 0 评论 -
LLM Weekly(2025.11.03-11.09)
该模型采用量化感知训练(Quantization-Aware Training),实现高速、尖端的推理效果,在智能体搜索、编程及各类任务的推理能力上均取得显著提升。研究人员构建了“深度推理数据集”(Deep Reasoning Dataset),测试模型在递增复杂度任务中的表现,发现模型在高复杂度场景下性能大幅下降。为提升 Siri 性能,苹果将在其私有云计算服务器(Private Cloud Compute)上运行 Gemini 模型,支持实时个性化查询,同时确保 Siri 与苹果生态系统的深度融合。原创 2025-11-12 15:53:15 · 661 阅读 · 0 评论 -
LLM Weekly(2025.10.20-10.26)
安全沙箱环境为代码提供保护,同时支持移动端和 iOS 系统适配,方便随时使用,提升漏洞修复、后端修改及日常任务的处理效率。它支持多来源数据抓取、代码仓库分析及内容整理,能检测冲突和未明确的文档缺口,通过智能合并生成全面的 AI 增强技能包,满足不同框架、API 及工具的开发需求,提升工作流效率。开发者即日起可启动相关开发工作。该技术在 DistCA 中实现,可平衡 512 块 H200 GPU 的计算与内存资源,训练吞吐量提升最高达 1.35 倍,同时消除数据并行组和流水线并行组中的滞后问题。原创 2025-10-29 14:47:46 · 843 阅读 · 0 评论 -
LLM Weekly(2025.10.13-10.19)
Anthropic 公司发布 Claude Haiku 4.5 模型,该模型在提升编码性能的同时降低成本、提高速度,在特定任务中表现优于 Claude Sonnet 4 模型。用户可通过 Claude Code 平台及主流平台使用该模型,它为开发者提供了高性价比的选择,能助力聊天助手、编码代理等人工智能应用的优化。原创 2025-10-21 10:09:24 · 355 阅读 · 0 评论 -
LLM Weekly(2025.10.6-10.12)
OpenAI 在 ChatGPT 平台内推出新一代支持聊天功能的应用程序,目前已在欧盟与英国以外地区上线。该功能由基于模型上下文协议(Model Context Protocol)构建的全新应用程序软件开发工具包(Apps SDK)提供技术支持。OpenAI 与 Spotify、Zillow 等合作伙伴展开合作,助力开发者触达 8 亿用户,通过对话式界面提升交互体验。原创 2025-10-15 15:14:05 · 675 阅读 · 0 评论 -
LLM Weekly(2025.09.29-10.5)
OpenAI 推出视频-音频生成模型 Sora 2,相较于前代产品,其真实感与可控性均有提升。该模型可通过 Sora 应用获取,在物理效果模拟、复杂音景构建以及将现实元素融入场景方面表现突出。。Anthropic 发布 Claude Sonnet 4.5,将其定位为性能最强的编码模型,在复杂任务执行上表现卓越,且在推理与数学能力方面实现大幅提升。。谷歌深度思维(Google DeepMind)发布 Gemini 2.5 Flash 与 Flash-Lite 的更新版本,进一步提升了模型的质量与效率。原创 2025-10-13 11:07:29 · 61 阅读 · 0 评论 -
LLM Weekly(2025.09.22-09.28)
原创 2025-10-11 10:30:00 · 182 阅读 · 0 评论 -
LLM Weekly(2025.09.15-09.21)
他们研发的“AgentFounder-30B”模型在十项基准测试中表现突出,例如在BrowseComp英文测试集(BrowseComp-en)中得分为39.9%,在BrowseComp中文测试集(BrowseComp-zh)中得分为43.3%,在HLE测试集的“一次通过率”(Pass@1)中得分为31.5%,同时在复杂问题解决中仍保持强大的工具使用能力。根据合作协议,英特尔将为英伟达的人工智能平台设计定制化中央处理器,并为搭载英伟达图形处理器(GPU)芯粒的个人电脑开发x86系统级芯片(SOCs)。原创 2025-09-23 15:37:35 · 769 阅读 · 0 评论 -
LLM Weekly(2025.09.08-09.14)
据《华尔街日报》报道,OpenAI与甲骨文公司据称签署了一项具有历史意义的云计算协议。甲骨文与OpenAI达成了一项重大云计算合作,承诺自2027年起的五年内,提供价值3000亿美元的计算能力。这使OpenAI成为甲骨文的主要客户之一,同时OpenAI也在从微软Azure平台多元化发展,并继续参与“星门计划”(Stargate Project)以扩建数据中心。Nebius与微软签署174亿美元AI基础设施协议,股价大涨。原创 2025-09-16 10:43:32 · 677 阅读 · 0 评论 -
LLM Weekly(2025.09.01-09.07)
原创 2025-09-10 11:30:00 · 403 阅读 · 0 评论 -
LLM Weekly(2025.08.25-08.31)
该公司营收达467亿美元,同比增长56%,这一增长主要得益于聚焦人工智能的数据中心销售额激增。其中,Blackwell芯片贡献了270亿美元的销售额。不过,受地缘政治因素影响,英伟达在华芯片销售仍面临挑战。英伟达预测,下一季度营收将达540亿美元(不含可能向中国市场出货的H20芯片)。OpenAI推出。此次发布的GPT-Realtime模型与升级版Realtime API,能帮助开发者构建更先进的语音智能体,在语音自然度、推理能力、智能水平及函数调用方面均有提升。原创 2025-09-06 09:00:00 · 480 阅读 · 0 评论 -
LLM Weekly(2025.08.18-08.24)
深度求索在 Hugging Face 平台发布了参数规模达 6850 亿的强大人工智能模型 DeepSeek V3.1。该模型为开源性质,且具备高性价比,在 Aider 基准测试中取得 71.6% 的得分,同时整合了对话、推理与编码功能,足以与 OpenAI 等美国人工智能巨头相抗衡。此次战略性发布通过免费开放前沿人工智能能力,对传统人工智能经济模式构成挑战。。谷歌已通过 Gemini API 及谷歌 AI Studio 平台推出先进的文本生成图像模型 Imagen 4。原创 2025-08-26 10:54:37 · 391 阅读 · 0 评论 -
LLM Weekly(2025.08.11-08.17)
Claude Sonnet 4 如今支持多达 100 万个 token 的上下文,这使得 Anthropic API 能够进行大规模的代码分析和文档合成。作为公开测试版,它已与亚马逊 Bedrock 集成,不久后还将在谷歌云的 Vertex AI 上推出。对于超过 20 万个 token 的提示词,定价会有所调整,通过提示词缓存有可能获得折扣。。Perplexity AI 提出以 345 亿美元现金收购谷歌的 Chrome,这体现了在人工智能搜索竞赛中,它想利用 Chrome 庞大用户基础的野心。原创 2025-08-23 10:00:00 · 136 阅读 · 0 评论 -
LLM Weekly(2025.07.14-07.20)
ChatGPT 引入了全新的智能体功能,能让用户将日程管理、竞争对手分析、电子表格更新等复杂任务托付给它。借助虚拟计算机以及可视化浏览器、终端等工具,ChatGPT 能高效地完成各项任务。。moonshot AI 推出了 Kimi K2,这是一款具有先进智能体能力的开源模型,激活参数达 320 亿,总参数为 1 万亿。Kimi K2 在多项任务中表现出色,支持更强大的编码、工具使用和统计分析功能。用户可以通过网页、API 或自行托管部署的方式使用 Kimi K2,其功能还在持续开发优化中。。原创 2025-08-22 10:00:00 · 38 阅读 · 0 评论 -
LLM Weekly(2025.07.21-07.27)
OpenAI 正准备发布 GPT-5,预计在 8 月初推出。首席执行官山姆·奥特曼强调了在数学竞赛中的测试阶段和新的研究技术。外部测试人员和安全专家正在对该模型进行评估,预计还会有迷你版和纳米版。其改进包括增强的推理能力、更自然的交互以及更长的上下文长度,这标志着其即将发布。。Lovable 在 8 个月内年度经常性收入突破 1 亿美元,成为全球增长最快的初创公司。全新的 Lovable Agent 通过处理复杂的多步骤任务以及与外部工具集成,极大地简化了大型软件的构建过程。原创 2025-08-21 10:00:00 · 132 阅读 · 0 评论 -
LLM Weekly(2025.07.28-08.03)
谷歌为Gemini人工智能模型推出了Deep Think升级,通过并行思考技术,让模型有更多“思考时间”来处理复杂任务。Deep Think在创造力、策略制定和编程挑战方面表现出色。。智谱AI推出了GLM-4.5和GLM-4.5-Air,这是经过优化的大型语言模型,在推理、编码和代理任务方面表现优异。在基准测试中,GLM-4.5在顶级模型中排名第三,在网页浏览准确性和代理任务方面尤为突出。原创 2025-08-20 10:00:00 · 350 阅读 · 0 评论 -
LLM Weekly(2025.08.04-08.10)
OpenAI推出了其最先进的人工智能模型GPT-5,在写作、编程、健康和多模态推理方面提升了性能。GPT-5专为实际应用打造,相比前代产品减少了错误,并改进了风格。专业订阅用户可通过GPT-5 Pro获得扩展推理能力。。OpenAI发布了gpt-oss-120b和gpt-oss-20b,这是基于Apache 2.0许可证的最先进的开源权重语言模型,经过优化可在消费级硬件上高效部署。这些模型在推理任务中表现出色,优于其他开源模型,并具有强大的安全标准。原创 2025-08-19 08:00:00 · 295 阅读 · 0 评论 -
LLM Weekly(2025.07.07-07.13)
SmolLM3 支持六种语言,具备双模式推理能力,并能处理长达 128k token 的上下文,为社区发展提供了完整的训练蓝图。LongVILA-R1–7B 模型在视频问答基准测试中表现优异,实现了速度和性能的提升,并支持在多种媒体和模型类型上的灵活 RL 训练。Nvidia 实现了 4 万亿美元的市值,成为首家达到这一里程碑的上市公司,这主要得益于其在 AI 发展中的核心地位。它集成了共享的主干网络用于策略和过程奖励模型,消除了对过程注释的依赖,并提供三种推理努力模式。原创 2025-07-18 16:15:19 · 416 阅读 · 0 评论 -
LLM Weekly(2025.06.30-07.06)
OpenAI API深度研究入门。OpenAI的深度研究API通过利用智能体模型分解任务、执行网络搜索和编写富含引用的报告,实现了复杂研究工作流的自动化。用户可以在o3-deep-research(用于详细合成)和o4-mini-deep-research(用于更快输出)等模型之间进行选择。该API支持网络搜索和代码执行等工具,提高了研究效率和基于数据的推理能力。扎克伯格推出Meta“超级智能”团队,计划更多招聘。原创 2025-07-08 09:51:33 · 562 阅读 · 0 评论 -
LLM Weekly(2025.06.16-06.22)
MiniMax推出了MiniMax-M1,这是一种尖端的混合注意力推理模型,拥有4560亿参数,上下文大小是DeepSeek-R1的8倍。研究人员引入了MultiFinBen,这是一个多语言、多模态的基准,用于评估金融语言模型在不同模态和语言上的表现。这种方法利用预训练的适配器,促进基于语言的专门化,使基础模型的定制过程大众化,同时减少资源需求。他提议在Cursor等工具中加入“自主性滑块”,以平衡AI的局限性和人类的监督,并强调LLM友好型文档的重要性,因为AI智能体正越来越多地消费数字信息。原创 2025-07-03 10:05:41 · 337 阅读 · 0 评论 -
LLM Weekly(2025.06.02-06.08)
小米的 LLM-Core 团队开源了 MiMo-VL-7B-SFT 和 MiMo-VL-7B-RL,这两款领先的视觉语言模型在视觉理解和多模态推理方面表现出色。通过比较模型对收入的影响,HyperWrite 确保其选择与业务目标一致,如 GPT-4.1 所示,它在匹配现有模型性能的同时降低了成本。通过协同定位这些进程,系统跳过了 HTTP 通信,支持张量并行和数据并行,并简化了部署,使其具有可扩展性且适用于大规模模型训练的生产环境,从而提高了效率。研究人员通过自我反思和强化学习增强了大型语言模型。原创 2025-06-12 14:18:32 · 162 阅读 · 0 评论 -
LLM Weekly(2025.05.19-05.25)
通过构建包含 4 万偏好对的 WebPRM 数据集,并推出 WebRewardBench 评估框架,该模型在 WebRewardBench 上比 GPT-4o 准确率提升 30 点,在 WebArena-lite 任务中性能提升 10.9 点,同时降低成本。通过混合精度量化,研究识别并解决权重和激活误差,指出当训练数据充足时,降低权重误差是提升 QAT 性能的关键。该模型基于数万亿不同来源的 token 预训练,擅长图像操作、虚拟导航等复杂推理任务,在标准基准测试中超越现有开源模型。🔬 有趣论文与代码库。原创 2025-05-29 11:14:18 · 334 阅读 · 0 评论 -
LLM Weekly(2025.05.05-05.11)
🔬 论文与代码库速览。原创 2025-05-15 09:58:57 · 321 阅读 · 0 评论 -
LLM Weekly(2025.04.28-05.04)
原创 2025-05-09 08:30:00 · 170 阅读 · 0 评论 -
LLM Weekly(2025.04.21-04.27)
Claude Code 是一个用于智能体编码的命令行工具,通过提供底层的、可定制的模型访问,增强了编码工作流程。尽管 ChatGPT 和 Meta AI 分别拥有 6 亿和 5 亿用户,超过了 Gemini,但谷歌的整合努力扩大了 Gemini 的用户范围。该模型支持多种风格、精确的编辑操作,并且能够将图像进行组合,同时利用其广泛的世界知识和一致的文本渲染能力。这个基于 while 循环构建的简单架构,突显了利用最近在为函数调用和工具使用而训练的大语言模型方面的进展,实现了智能体人工智能开发的简化。原创 2025-05-08 09:30:00 · 445 阅读 · 0 评论 -
LLM Weekly(2025.04.14-04.20)
这些模型降低了成本,提高了实际应用价值,并弃用了 GPT-4.5,强调了对开发者的效率提升。ReTool 的 320 亿参数模型在数学奥林匹克竞赛基准测试 AIME 上达到了 67% 的准确率,超过了基于文本的强化学习基线,并展示了代码自我修正等涌现行为,推动了复杂数学推理和混合神经符号系统的发展。智能体抽象简化了初始化过程,但可能会掩盖大语言模型对上下文的需求,从而影响可靠性,这强调了需要有框架来促进上下文的清晰性,同时平衡工作流程和智能体的复杂性。这一下载量的激增恰逢其图像生成功能的升级。原创 2025-05-08 08:30:00 · 272 阅读 · 0 评论 -
LLM Weekly(2025.04.07-04.13)
原创 2025-04-17 17:53:08 · 460 阅读 · 0 评论 -
LLM Weekly(2025.03.31-04.06)
原创 2025-04-09 10:21:59 · 509 阅读 · 0 评论 -
LLM Weekly(2025.03.24-03.30)
OpenAI发布4o图像生成技术。OpenAI的GPT-4o通过将图像生成集成到语言模型中,实现了照片级真实感输出。该工具支持精准图像渲染和文本融合,基于海量图文数据训练,确保上下文一致性与准确性,适用于创意应用场景。目前已逐步向ChatGPT用户开放,并即将通过API提供服务。谷歌发布Gemini 2.5。谷歌DeepMind推出的尖端AI模型Gemini 2.5在推理和编码领域表现卓越。其Pro实验版在数学、科学和编码基准测试中领先,可在谷歌AI Studio使用。原创 2025-04-07 10:14:35 · 313 阅读 · 0 评论 -
LLM Weekly(2025.03.17-03.23)
原文地址:https://medium.com/nlplanet/claude-can-now-search-the-web-weekly-ai-newsletter-march-24th-2025-8bd25852f676原创 2025-03-28 16:39:48 · 415 阅读 · 0 评论 -
LLM Weekly(2025.03.10-03.16)
OpenAI推出全新工具与API套件,简化AI智能体开发流程,帮助开发者打造更可靠的任务导向型应用。本次更新包含响应式API、智能体开发工具包,以及整合网页/文件搜索与计算机操作功能的内置工具。谷歌DeepMind发布新一代开源模型Gemma 3,支持在单个GPU/TPU上高效运行。该模型支持140种语言,具备进阶文本与视觉推理能力,拥有128k令牌的上下文窗口,堪称当前单卡最强模型。获英伟达投资的云计算公司CoreWeave与OpenAI签订五年119亿美元云计算服务合同,为其IPO铺路。原创 2025-03-20 10:56:10 · 825 阅读 · 0 评论
分享