今日凌晨,OpenAI技术直播发布最新模型GPT-4.1,同步推出GPT 4.1-Mini和GPT 4.1-Nano,在多模态处理、代码能力、指令遵循及成本方面显著提升,尤其支持100万token上下文,对金融分析、小说创作、教育等领域意义重大。因性能优势,OpenAI宣布淘汰不久前发布的GPT-4.5。目前,未通过API验证的用户可通过微软Azure OpenAI平台体验GPT-4.1。

GPT-4.1介绍
长上下文处理:支持 100 万 tokens 上下文,是前代模型(如 GPT-4o)的 8 倍,为 OpenAI 首款长窗口模型。在 Long Context Evals 测试中,GPT-4.1 系列能精准定位语料库任意深度的目标文本,即使面对 100 万 tokens 的长文本也表现优异。
复杂对话理解:在 Multi-Round Coreference 测试中,GPT-4.1 通过合成对话展现了强大的理解和推理能力,能在复杂对话中准确找到特定内容,如“第二篇关于某个主题的短故事”,且在处理 128K tokens 数据时显著优于 GPT-4o。
编码能力提升:在 SWEBench 评估中,GPT-4.1 在 Python 代码库环境中的准确率达到 55%,较 GPT-4o 的 33% 有大幅提升。在多语言编码能力测试(Ader polyglot 基准测试)中,GPT-4.1 的性能较 GPT-4o 提升一倍,处理多语言编程任务更高效。
指令遵循能力强:OpenAI 构建的内部评估体系显示,GPT-4.1 在模拟 API 开发者使用场景中,对复杂指令的遵循能力远超 GPT-4o,尤其在困难子集评估中表现突出。
多模态处理突破:在视频 MME 基准测试中,GPT-4.1 能理解 30 - 60 分钟无字幕视频并回答多项选择题,取得 72% 的成绩,达到当前最佳水平,实现了视频内容理解的重大突破。
价格更具竞争力:GPT-4.1 系列在性能提升的同时,价格更具优势。GPT-4.1 相比 GPT-4o 价格降低 26%,而 GPT-4.1 Nano 作为最小、最快且最便宜的模型,每百万 token 的成本仅为 12 美分。
实际应用GPT-4.1案例
汤森路透作为全球金融和法律信息巨头,其专业级AI助手CoCounsel广泛应用于法律工作。在测试GPT -4.1时发现,该模型在多文档审查方面表现优异,尤其在处理涉及多个长文档的复杂法律工作流程时。与GPT -4o相比,GPT -4.1在内部长上下文基准测试中的多文档审查准确性提高17%。法律文件常包含多个长文档,且文档间存在复杂相互关系,如冲突条款或补充上下文,GPT -4.1能精准识别这些细微关系,有效维护跨文档上下文信息,准确识别冲突条款或补充信息,对法律分析和决策意义重大。

全球领先的私募股权投资公司Carlyle,业务涉及大量金融数据分析和文档处理。Carlyle使用GPT -4.1从多个长文档(如PDF文件、Excel表格等复杂格式)中准确提取颗粒化金融数据。内部评估显示,GPT -4.1在大型文档数据检索方面表现比其他可用模型高出50%。该模型处理大文档能力出色,尤其在密集数据检索方面,成功克服检索问题、中间位置信息丢失及跨文档多跳推理等关键限制,能更高效地从复杂金融文档提取关键信息,为分析师提供更准确全面的数据支持。
专注于提供高效开发工具的Windsurf公司,其内部编码基准测试是评估AI模型开发表现的重要参考。测试发现,GPT -4.1在编码任务中表现较前代GPT -4o显著提升,在Windsurf内部编码基准测试中得分高出60%。用户反馈显示,GPT -4.1在工具调用方面效率比GPT -4o提高30%,且在编码过程中重复不必要编辑或过度细化步骤的可能性降低约50%。