LLM Weekly
文章平均质量分 81
本专栏主要是周更新,每周日更新一周内的LLM相关新闻,github库,以及这周值得关注的论文。
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
LLM Weekly(2026.5.4-2026.5.10)
与竞争对手的独立生成器不同,Omni 原生理解声音与视觉之间的关系。Google DeepMind 的 Gemini 驱动编码代理在数据中心调度中回收了全球 0.7% 的算力,将 Gemini 训练内核加速 23%,FlashAttention 加速 32.5%,并找到了 56 年来 Strassen 矩阵乘法算法的首次改进。在视觉-语言方面接近 Gemini 2.5 Flash,在全模态理解上超越 Qwen3-Omni-30B,并可在低于 12GB RAM 的边缘设备上实时全双工交互。原创 2026-05-24 10:30:00 · 20 阅读 · 0 评论 -
LLM Weekly(2026.5.11-2026.5.17)
MinT 可在共享万亿参数基础模型上管理百万规模的 LoRA 适配器目录,支持扩展到超 1T 参数的 MoE 架构,也支持适配器占比不到基础模型 1% 的场景,实现 18.3 倍数据移动减少,并支持数千并发活跃适配器,效率提升 8.5–8.7 倍。发布 8B 和 30B MoE 版本,采用 NEO-unify 架构,在文本理解、视觉推理、图像合成和信息图生成等方面表现具有竞争力,在视觉-语言-动作和世界建模上也展现潜力。此次重组旨在减少冗余,通过垂直整合加速发展,包括计划中的太空数据中心和半导体制造。原创 2026-05-24 09:30:00 · 157 阅读 · 0 评论 -
LLM Weekly(2026.4.27-2026.5.3)
NVIDIA 发布 Nemotron 3 Nano Omni,这是一款混合 Mamba-Transformer 模型,配备专用的视觉和音频编码器,用于文档分析、ASR 和视频理解。该模型将图像、视频、网页和文档的理解直接集成到 Agent 工作流中,提升多模态编码和视觉工具使用能力,同时通过分层优化保持了有竞争力的纯文本性能。Tuna-2 用简单 patch 嵌入替代模块化的预训练视觉编码器,在图像生成和感知基准上达到 SOTA,同时降低架构复杂度,并在大规模下展现更强的细粒度视觉感知能力。原创 2026-05-09 09:30:00 · 161 阅读 · 0 评论 -
LLM Weekly(2026.4.6-2026.4.12)
首个世界模型通用开源框架,明确定义以感知为核心、具备环境交互+长期记忆能力的世界模型统一标准。整合多任务通用推理代码,实现跨模型代码复用与协同推理,为全球世界模型研究搭建统一底层基座。原创 2026-05-03 11:30:00 · 185 阅读 · 0 评论 -
LLM Weekly(2026.4.13-2026.4.19)
结构化命令行(标准化输入输出)、可版本化复用AI技能库、行业垂类微调模型(法律判例、医疗病历、金融财报等),并以主流SaaS产品作为落地实例。一句话提示词即可生成精美产品原型、演示幻灯片、营销视觉物料,支持内嵌批注、自定义调节控件,可一键导出至 Canva。合作企业:美国银行、Cloudflare、猎鹰安全、摩根大通、英伟达、甲骨文、帕洛阿尔托网络、Zscaler 等。官方建议:多数业务优先选用「调度者+子智能体」模式;集成目标管理、多智能体协作、第三方应用互联、文件管理、人工审核强制开关,原创 2026-05-02 11:30:00 · 41 阅读 · 0 评论 -
LLM Weekly(2026.4.20-2026.4.26)
专为智能体工作流设计的标准化语言,支持分支、循环、并行执行、状态管理、模块化开发;配套可视化编辑器,流程图与工作流实时同步。实测可读性、可维护性全面优于现有智能体开发框架。原创 2026-05-01 11:30:00 · 166 阅读 · 0 评论 -
LLM Weekly(2026.3.23-2026.3.29)
研究作者引入了一个拥有40亿参数的移动端GUI智能体,采用拒绝微调(rejection fine-tuning)技术实现模型与数据的协同进化,并通过分组相对自蒸馏(group relative self-distillation)技术从失败的操作轨迹中进行信用分配(credit assignment)。在从1.6万扩展到1亿Token的过程中,MSA的性能下降不到9%,并且凭借稀疏注意力和基于文档的位置编码,它在长上下文任务上的表现优于现有前沿模型和RAG(检索增强生成)系统。指南内附详细的按步设置说明。原创 2026-04-02 10:30:00 · 126 阅读 · 0 评论 -
LLM Weekly(2026.3.9-2026.3.15)
NVIDIA 发布 Nemotron 3 Super 大模型,这是一款参数量达 1200 亿的混合 Mamba-Transformer 混合专家模型,仅激活 120 亿参数,支持 100 万 token 上下文窗口,专为智能体推理工作流量身打造。该模型的吞吐量较上一代 Nemotron Super 提升最高 5 倍,准确率提升 2 倍,在开源权重模型中效率排名登顶,同时为 NVIDIA 的 AI-Q 研究智能体提供算力支持,该智能体在 DeepResearch Bench 榜单中位列第一。原创 2026-03-27 07:30:00 · 230 阅读 · 0 评论 -
LLM Weekly(2026.3.16-2026.3.22)
据 Anthropic 报告,开发者约 60% 的工作会使用 AI 辅助,但能完全交由 AI 代劳的任务仅占 0%–20%。来自乐天、加拿大电信运营商 TELUS 及 Zapier 的案例显示,Claude Code 可自主完成复杂开发工作,工程交付速度提升 30%,企业整体 AI 采用率达 89%,标志着开发模式从手写代码转向智能体编排。原创 2026-03-26 09:30:00 · 123 阅读 · 0 评论 -
LLM Weekly(2026.3.2-2026.3.8)
部分非英语语言能力仍较弱,现已在 ChatGPT 与 API 以。原创 2026-03-14 12:30:00 · 138 阅读 · 0 评论 -
LLM Weekly(2026.1.26-2026.2.1)
谷歌 DeepMind 与 Google Labs 推出网页原型,由 Genie 3、Nano Banana Pro 和 Gemini 驱动,面向美国地区 18 岁以上的 Google AI Ultra 订阅用户开放。用户可通过文本和图像,实时探索,并对现有场景进行二次创作。谷歌将其定位为,同时指出目前在视觉效果、控制能力和持续时长上仍有局限。原创 2026-03-12 11:30:00 · 163 阅读 · 0 评论 -
LLM Weekly(2026.2.2-2026.2.8)
Anthropic 发布 Claude Opus 4.6,这是一款前沿大模型,在代码能力、长上下文推理与智能体任务表现上均有提升。该模型已开放(测试版)和。Claude Opus 4.6 在 Terminal-Bench 2.0、Humanity’s Last Exam、GDPval-AA、BrowseComp 等基准测试中领先,同时保持优秀的安全性能。Anthropic 还新增了,并强化了与 Excel、PowerPoint 的集成能力。原创 2026-03-12 10:30:00 · 91 阅读 · 0 评论 -
LLM Weekly(2026.2.9-2026.2.15)
OpenAI 推出 GPT‑5.3‑Codex‑Spark,这是一款轻量化的 GPT‑5.3‑Codex 模型,专为在 Cerebras Wafer Scale Engine 3 上实现优化。Codex‑Spark 每秒可输出超过 1000 个 token,支持 128k 纯文本上下文长度,并采用独立速率限制。OpenAI 还通过持久化 WebSocket 连接与推理栈优化,将。Z.ai 发布 GLM-5,一款 7440 亿参数的稀疏大模型,针对复杂系统工程与长周期智能体任务优化。原创 2026-03-12 09:30:00 · 244 阅读 · 0 评论 -
LLM Weekly(2026.2.16-2026.2.22)
Anthropic 发布 Claude Sonnet 4.6,相比 4.5 版本全面升级,在上均有提升,且。模型支持,性能接近 Opus 水平,安全性与对抗提示词注入能力更强。开发者可通过 Claude.ai、Claude Cowork、Claude Code、API 及主流云平台使用 Sonnet 4.6。原创 2026-03-12 08:30:00 · 260 阅读 · 0 评论 -
LLM Weekly(2026.2.23-2026.3.1)
Anthropic CEO 达里奥·阿莫迪拒绝了五角大楼的“最终提议”,称公司不能在的前提下,允许其AI模型被用于所有合法用途。Anthropic 要求明确和,而与该公司签有2亿美元合同的美国国防部则要求无限制合法使用,并威胁将其列入供应链风险名单。谷歌发布 Nano Banana 2(即 Gemini 3.1 Flash Image 模型),图像生成比 Nano Banana Pro 更快、更逼真,支持 512px~4K 分辨率与多种宽高比。原创 2026-03-12 07:30:00 · 162 阅读 · 0 评论 -
LLM Weekly(2026.1.19-2026.1.25)
MCP并非问题根源,问题在你的服务器:搭建MCP服务器的最佳实践。高性能的MCP服务器会将该协议视为智能体的交互接口,而非简单的REST封装器:这类服务器会提供以结果为导向、扁平化且文档完善的工具,精简并清晰命名功能模块,对大容量结果进行分页处理,同时与技能插件形成互补——技能插件负责提供更高层级的工作流和指令,而非结构化的工具模式。该团队通过融合领域并行的专家训练、基于DORA的大规模异步强化学习、噪声感知的训练流程,以及新增的“深度思考模式”,全方位提升了模型的泛化能力、鲁棒性和推理阶段的表现。原创 2026-01-28 16:17:46 · 48 阅读 · 0 评论 -
LLM Weekly(2026.1.12-2026.1.18)
人工智能公司Anthropic面向Claude Max订阅用户,在macOS版Claude应用中推出了一项名为Cowork的研究预览功能。该功能允许用户授权Claude访问指定文件夹,实现文件的读取、编辑与创建操作。Cowork具备更强的自主执行能力,可完成多步骤任务,还能通过各类连接器与技能组件处理文档和演示文稿,同时支持任务队列管理,所有操作均需用户审批后方可执行。Anthropic同时提醒用户,该功能存在执行破坏性操作以及遭遇提示词注入攻击的风险。原创 2026-01-21 11:00:00 · 232 阅读 · 0 评论 -
LLM Weekly(2026.1.5-2026.1.11)
OpenAI 推出了 ChatGPT Health,这是一个专属加密空间,可将用户的医疗记录和健康类应用程序与 ChatGPT 相连接,从而提供个性化的非诊断性健康指导。该服务采用数据隔离机制,健康相关对话内容不会用于模型训练,同时支持多重身份验证(MFA)。OpenAI 联合 260 余名医生参与了该功能的研发与评估工作,目前已开放候补申请通道,初期服务范围暂不包含欧洲经济区、瑞士以及英国。原创 2026-01-20 09:36:42 · 157 阅读 · 0 评论 -
LLM Weekly(2025.12.29-2026.1.4)
深度求索提出全新训练方法,助力中国人工智能能效提升 深度求索发布一篇关于流形约束超连接(Manifold-Constrained Hyper-Connections) 的论文,该训练框架可提升大型人工智能模型的可扩展性,同时降低算力与能耗需求。研究团队基于字节跳动2024年的技术成果,对参数量从30亿到270亿不等的模型展开测试。此项研究先于深度求索备受期待的R2模型问世,分析人士指出,即便面临美国的芯片限制,该模型仍有望再度颠覆全球人工智能领域格局。谷歌在NotebookLM平台测试30分钟音频课程功能原创 2026-01-08 10:11:22 · 149 阅读 · 0 评论 -
LLM Weekly(2025.12.15-12.21)
OpenAI推出由其最强文本生成图像模型驱动的ChatGPT图像功能,该功能已向所有ChatGPT用户及API调用用户开放。这款模型指令遵循精度更高,在图像编辑过程中能精准保留光影、构图与人物肖像特征,优化了密集文本渲染效果和小尺寸人脸画质,图像生成速度提升高达4倍。新增的图像侧边栏功能,提供预设风格模板、热门提示词以及可重复使用的肖像上传功能。。谷歌推出Gemini 3 Flash模型,将其部署为Gemini应用及AI搜索模式的默认模型。原创 2025-12-24 16:55:58 · 76 阅读 · 0 评论 -
LLM Weekly(2025.12.8-12.14)
Reflexion、STaR、STaSC、自我挑战智能体、SEAL、SICA、Voyager以及自我提升型EFM等方法,能够将交互轨迹、自主生成的任务、代码或权重编辑转化为稳定的性能提升,同时外部测试和严格的验收规则会限制不安全或倒退的变更。该智能体存储简洁的引理,进行多轮分层推理,并通过OREAL-H强化学习框架进行训练,在2025年国际数学奥林匹克中获得银牌,在2025年中国数学奥林匹克中获得金牌,在多个基准测试中的表现超过了先进的LRM模型。命令检索过往的结果、失败经验和超参数。原创 2025-12-16 14:58:05 · 359 阅读 · 0 评论 -
LLM Weekly(2025.12.1-12.7)
原创 2025-12-10 15:10:43 · 676 阅读 · 0 评论 -
LLM Weekly(2025.11.24-11.30)
FLUX.2 可生成和编辑最高 400 万像素图像,支持最多 10 张参考图,在照片级真实感、文本渲染和提示词遵循度方面均有提升,采用潜在流架构(latent flow architecture)并结合 Mistral-3 24B 模型。:深度求索(DeepSeek)发布开源权重模型 DeepSeekMath-V2,其性能比肩 OpenAI 和谷歌——不仅获得 2025 年国际数学奥林匹克(IMO)金牌,还在 2024 年普特南数学竞赛(Putnam)中取得 118/120 的高分,超越顶尖人类选手成绩。原创 2025-12-04 10:00:00 · 359 阅读 · 0 评论 -
LLM Weekly(2025.11.17-11.23)
原创 2025-11-25 11:04:07 · 649 阅读 · 0 评论 -
LLM Weekly(2025.11.10-11.16)
尽管各组织对员工规模的预期存在差异,但64%的组织认为AI能促进创新,不过仅有39%的组织表示AI对息税折旧摊销前利润(EBIT)产生了显著影响。文章解决了内存使用和效率方面的挑战,探索了梯度检查点技术,并测试了多种优化策略,以提升模型的训练吞吐量和平均浮点运算利用率。评估显示,它在效率上超越了推测解码和其他扩散模型,每秒生成的令牌数量提升4.71至5.91倍,同时保持自回归模型的质量水平。该模型实现了150毫秒内的实时转录,支持英语、法语、西班牙语等多种语言,在30种语言中的准确率达到93.5%。原创 2025-11-20 14:25:49 · 497 阅读 · 0 评论 -
LLM Weekly(2025.11.03-11.09)
该模型采用量化感知训练(Quantization-Aware Training),实现高速、尖端的推理效果,在智能体搜索、编程及各类任务的推理能力上均取得显著提升。研究人员构建了“深度推理数据集”(Deep Reasoning Dataset),测试模型在递增复杂度任务中的表现,发现模型在高复杂度场景下性能大幅下降。为提升 Siri 性能,苹果将在其私有云计算服务器(Private Cloud Compute)上运行 Gemini 模型,支持实时个性化查询,同时确保 Siri 与苹果生态系统的深度融合。原创 2025-11-12 15:53:15 · 686 阅读 · 0 评论 -
LLM Weekly(2025.10.20-10.26)
安全沙箱环境为代码提供保护,同时支持移动端和 iOS 系统适配,方便随时使用,提升漏洞修复、后端修改及日常任务的处理效率。它支持多来源数据抓取、代码仓库分析及内容整理,能检测冲突和未明确的文档缺口,通过智能合并生成全面的 AI 增强技能包,满足不同框架、API 及工具的开发需求,提升工作流效率。开发者即日起可启动相关开发工作。该技术在 DistCA 中实现,可平衡 512 块 H200 GPU 的计算与内存资源,训练吞吐量提升最高达 1.35 倍,同时消除数据并行组和流水线并行组中的滞后问题。原创 2025-10-29 14:47:46 · 856 阅读 · 0 评论 -
LLM Weekly(2025.10.13-10.19)
Anthropic 公司发布 Claude Haiku 4.5 模型,该模型在提升编码性能的同时降低成本、提高速度,在特定任务中表现优于 Claude Sonnet 4 模型。用户可通过 Claude Code 平台及主流平台使用该模型,它为开发者提供了高性价比的选择,能助力聊天助手、编码代理等人工智能应用的优化。原创 2025-10-21 10:09:24 · 377 阅读 · 0 评论 -
LLM Weekly(2025.10.6-10.12)
OpenAI 在 ChatGPT 平台内推出新一代支持聊天功能的应用程序,目前已在欧盟与英国以外地区上线。该功能由基于模型上下文协议(Model Context Protocol)构建的全新应用程序软件开发工具包(Apps SDK)提供技术支持。OpenAI 与 Spotify、Zillow 等合作伙伴展开合作,助力开发者触达 8 亿用户,通过对话式界面提升交互体验。原创 2025-10-15 15:14:05 · 700 阅读 · 0 评论 -
LLM Weekly(2025.09.29-10.5)
OpenAI 推出视频-音频生成模型 Sora 2,相较于前代产品,其真实感与可控性均有提升。该模型可通过 Sora 应用获取,在物理效果模拟、复杂音景构建以及将现实元素融入场景方面表现突出。。Anthropic 发布 Claude Sonnet 4.5,将其定位为性能最强的编码模型,在复杂任务执行上表现卓越,且在推理与数学能力方面实现大幅提升。。谷歌深度思维(Google DeepMind)发布 Gemini 2.5 Flash 与 Flash-Lite 的更新版本,进一步提升了模型的质量与效率。原创 2025-10-13 11:07:29 · 91 阅读 · 0 评论 -
LLM Weekly(2025.09.22-09.28)
原创 2025-10-11 10:30:00 · 196 阅读 · 0 评论 -
LLM Weekly(2025.09.15-09.21)
他们研发的“AgentFounder-30B”模型在十项基准测试中表现突出,例如在BrowseComp英文测试集(BrowseComp-en)中得分为39.9%,在BrowseComp中文测试集(BrowseComp-zh)中得分为43.3%,在HLE测试集的“一次通过率”(Pass@1)中得分为31.5%,同时在复杂问题解决中仍保持强大的工具使用能力。根据合作协议,英特尔将为英伟达的人工智能平台设计定制化中央处理器,并为搭载英伟达图形处理器(GPU)芯粒的个人电脑开发x86系统级芯片(SOCs)。原创 2025-09-23 15:37:35 · 789 阅读 · 0 评论 -
LLM Weekly(2025.09.08-09.14)
据《华尔街日报》报道,OpenAI与甲骨文公司据称签署了一项具有历史意义的云计算协议。甲骨文与OpenAI达成了一项重大云计算合作,承诺自2027年起的五年内,提供价值3000亿美元的计算能力。这使OpenAI成为甲骨文的主要客户之一,同时OpenAI也在从微软Azure平台多元化发展,并继续参与“星门计划”(Stargate Project)以扩建数据中心。Nebius与微软签署174亿美元AI基础设施协议,股价大涨。原创 2025-09-16 10:43:32 · 692 阅读 · 0 评论 -
LLM Weekly(2025.09.01-09.07)
原创 2025-09-10 11:30:00 · 419 阅读 · 0 评论 -
LLM Weekly(2025.08.25-08.31)
该公司营收达467亿美元,同比增长56%,这一增长主要得益于聚焦人工智能的数据中心销售额激增。其中,Blackwell芯片贡献了270亿美元的销售额。不过,受地缘政治因素影响,英伟达在华芯片销售仍面临挑战。英伟达预测,下一季度营收将达540亿美元(不含可能向中国市场出货的H20芯片)。OpenAI推出。此次发布的GPT-Realtime模型与升级版Realtime API,能帮助开发者构建更先进的语音智能体,在语音自然度、推理能力、智能水平及函数调用方面均有提升。原创 2025-09-06 09:00:00 · 495 阅读 · 0 评论 -
LLM Weekly(2025.08.18-08.24)
深度求索在 Hugging Face 平台发布了参数规模达 6850 亿的强大人工智能模型 DeepSeek V3.1。该模型为开源性质,且具备高性价比,在 Aider 基准测试中取得 71.6% 的得分,同时整合了对话、推理与编码功能,足以与 OpenAI 等美国人工智能巨头相抗衡。此次战略性发布通过免费开放前沿人工智能能力,对传统人工智能经济模式构成挑战。。谷歌已通过 Gemini API 及谷歌 AI Studio 平台推出先进的文本生成图像模型 Imagen 4。原创 2025-08-26 10:54:37 · 408 阅读 · 0 评论 -
LLM Weekly(2025.08.11-08.17)
Claude Sonnet 4 如今支持多达 100 万个 token 的上下文,这使得 Anthropic API 能够进行大规模的代码分析和文档合成。作为公开测试版,它已与亚马逊 Bedrock 集成,不久后还将在谷歌云的 Vertex AI 上推出。对于超过 20 万个 token 的提示词,定价会有所调整,通过提示词缓存有可能获得折扣。。Perplexity AI 提出以 345 亿美元现金收购谷歌的 Chrome,这体现了在人工智能搜索竞赛中,它想利用 Chrome 庞大用户基础的野心。原创 2025-08-23 10:00:00 · 371 阅读 · 0 评论 -
LLM Weekly(2025.07.14-07.20)
ChatGPT 引入了全新的智能体功能,能让用户将日程管理、竞争对手分析、电子表格更新等复杂任务托付给它。借助虚拟计算机以及可视化浏览器、终端等工具,ChatGPT 能高效地完成各项任务。。moonshot AI 推出了 Kimi K2,这是一款具有先进智能体能力的开源模型,激活参数达 320 亿,总参数为 1 万亿。Kimi K2 在多项任务中表现出色,支持更强大的编码、工具使用和统计分析功能。用户可以通过网页、API 或自行托管部署的方式使用 Kimi K2,其功能还在持续开发优化中。。原创 2025-08-22 10:00:00 · 56 阅读 · 0 评论 -
LLM Weekly(2025.07.21-07.27)
OpenAI 正准备发布 GPT-5,预计在 8 月初推出。首席执行官山姆·奥特曼强调了在数学竞赛中的测试阶段和新的研究技术。外部测试人员和安全专家正在对该模型进行评估,预计还会有迷你版和纳米版。其改进包括增强的推理能力、更自然的交互以及更长的上下文长度,这标志着其即将发布。。Lovable 在 8 个月内年度经常性收入突破 1 亿美元,成为全球增长最快的初创公司。全新的 Lovable Agent 通过处理复杂的多步骤任务以及与外部工具集成,极大地简化了大型软件的构建过程。原创 2025-08-21 10:00:00 · 144 阅读 · 0 评论 -
LLM Weekly(2025.07.28-08.03)
谷歌为Gemini人工智能模型推出了Deep Think升级,通过并行思考技术,让模型有更多“思考时间”来处理复杂任务。Deep Think在创造力、策略制定和编程挑战方面表现出色。。智谱AI推出了GLM-4.5和GLM-4.5-Air,这是经过优化的大型语言模型,在推理、编码和代理任务方面表现优异。在基准测试中,GLM-4.5在顶级模型中排名第三,在网页浏览准确性和代理任务方面尤为突出。原创 2025-08-20 10:00:00 · 359 阅读 · 0 评论
分享