中文网页检索挑战上线!GPT-4o准确率仅6.2%,这份新基准打脸所有大模型

©作者 | 周培林

单位 | 香港科技大学(广州)

随着大语言模型(LLMs)日渐“拟人化”,能写报告、能画图、还能“冲浪查资料”,不少人以为它们已能应对各种任务。

但这次,一项由港科大(广州)、北大、浙大、阿里、字节跳动、NIO 等机构联合发布的新基准测试集—— BrowseComp-ZH,让 20 多个中外主流大模型集体“挂科”:GPT-4o 在测试中准确率仅 6.2%;多数国产 / 国际模型准确率跌破 10%;即便是目前表现最好的 OpenAI DeepResearch,也仅得 42.9%。

研究团队直言:

“当前主流模型,距离成为真正懂中文互联网的智能体,还差得远。”

论文标题:

BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language Models in Chinese

论文地址:

https://arxiv.org/abs/2504.19314

代码地址:

https://github.com/PALIN2018/BrowseComp-ZH

为什么我们需要中文网页能力测试?

如今的大模型越来越擅长“用工具”:能连搜索引擎、能调用插件、能“看网页”。但众多评估工具都只在英文语境下建立,对中文语境、中文搜索引擎、中文平台生态考虑甚少。然而,中国互联网信息碎片化严重、搜索入口多样、语言表达复杂。中文网页世界到底有多难?举几个例子你就明白了:

  • 信息碎片化,分散在百度百科、微博、地方政府网站、视频号等多平台

  • 常见的语言结构中含有省略、典故、代指,关键词检索常常“跑偏”

  • 搜索引擎本身质量参差,信息“沉底”或“走丢”都是常事

因此,英文测试集“翻译一下”根本不够。需要从中文语境原生设计,才能真正衡量大模型是否能在中文网页上“看得懂”“搜得到”“推得准”。

BrowseComp-ZH 是怎么炼成的?

研究团队采用了“逆向设计法”:从一个明确、可验证的事实答案出发(如某个画种、机构、影视剧名),反向构造出多个约束条件的复杂问题,确保以下三点:

  • 百度 / Bing / Google 三大搜索引擎首屏无法直接命中答案

  • 多个主流大模型在检索模式下也无法直接答对

  • 经过人工验证,问题结构清晰,且仅有唯一答案

最终,他们构建了 289 道高难度中文多跳检索题目,覆盖影视、艺术、医学、地理、历史、科技等 11 大领域。

大模型集体“翻车”?DeepResearch 勉强破四成,绝大多数连 10% 都不到

在 BrowseComp-ZH 的测试下,多款国内外主流大模型集体“翻车”:

尽管这些模型在对话理解、生成表达方面已展现强大实力,但在面对中文互联网的复杂检索任务时,准确率普遍低得惊人——

1. 多数模型准确率低于 10%,仅少数能突破 20%

2. OpenAI DeepResearch 以 42.9% 位列第一,仍远未“及格”

研究者指出,这一结果说明:模型不仅需要会“查资料”,更要会“多跳推理”与“信息整合”,才能在中文互联网中真正找到答案。

四大发现,揭示中文网页任务的“模型死角”

4.1 仅靠记忆不行,得真本事

纯靠参数记忆(无搜索)的模型准确率往往低于 10%,说明“硬背”不靠谱。

4.2 有推理的模型,表现更好

DeepSeek-R1(23.2%)比 DeepSeek-V3(8.7%)整整高出 14.5%,Claude-3.7 也比 Claude-3.5 提升了 12.2%,推理能力成为关键变量。

4.3 搜得多 ≠ 搜得准,多轮策略才是王道

具备 多轮检索能力 的 AI 搜索产品全面胜出:

  • DeepResearch:42.9%

  • 豆包 Deep Search:26.0%

  • Perplexity Research 模式:22.6%

相比之下,只检索一次的模型(如 Kimi、Yuanbao)准确率低至个位数。

4.4 搜索功能“翻车”?接入反而变差

最典型的反例是 DeepSeek-R1,开启搜索功能后准确率从 23.2% 断崖式跌至 7.6%。

研究指出,模型未能将网页检索信息与已有知识有效融合,反而被误导。

数据集开放!欢迎模型开发者挑战

BrowseComp-ZH 的全部数据已开源发布:

项目地址:

https://github.com/PALIN2018/BrowseComp-ZH

研究者希望此基准测试能成为推动 LLM 在中文信息环境落地的试金石,助力构建真正“会用中文上网”的智能体。下一步,他们计划扩充样本规模,拓展问答形式,并深入分析模型推理路径与失败案例。

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

### 高复杂性任务对AI模型的挑战 对于需要专业知识和深度推理能力的任务,AI模型面临的挑战主要包括以下几个方面: 1. **逻辑推理与规划不足** 尽管像GPT-4这样的自回归架构表现出色,但在涉及算术运算或深层次推理的问题中仍然存在局限性。例如,在解决复杂的数学问题或设计多步解决方案时,这些模型可能缺乏足够的计划能力和精确度[^1]。 2. **错误信息生成的风险** AI模型可能会无意间生成不准确的信息,这尤其在科学、医学或其他高度专业化领域中是一个严重的问题。这种行为不影响用户体验,还可能导致实际应用中的负面后果。 3. **社会偏见的影响** 如果训练数据中含有偏差,则最终构建出来的模型也可能反映甚至放大这些偏差。这对于那些依赖于公平性和无歧视性的应用场景来说是非常危险的。 ### GPT-4V 在高复杂性任务上的表现 目前最先进版本之一——假设这里指代的是基于上述描述扩展而来的理论概念"GPT-4V"—应该继承并进一步优化了前几代产品的主要优点: 1. **增强版多模态处理功能** 像GPT-4那样支持文本加图片等多种形式的数据输入方式,使得它能更好地理解和回应视觉艺术分析或者工程图纸解读之类的需求[^2]。 2. **更高层次的理解力与创造力输出** 相较于前辈们如GPT-3系列,更迭代后的变种型号理论上可以提供更加流畅自然且富含洞见的回答内容;尤其是在撰写技术文档、法律条文解释等方面展现出了卓越的能力。 3. **持续进步的学习机制** 虽然具体细节未完全公开披露,但从已有资料推测可知,“GPT-4o mini”这类轻量化版本已经在某些特定指标上超过了较大规模的基础模型(比如GPT-3.5 Turbo),这意味着即使是在资源受限条件下运行的小型化实例也能够保持较高水准的服务质量[^3]。 综上所述,虽然现代大型语言模型已经取得了令人瞩目的成就,但对于极其困难的专业课题仍需不断探索和完善才能达到理想状态。 ```python # 示例代码展示如何调用OpenAI API来完成一项简单的查询请求 import openai openai.api_key = 'your_api_key_here' def ask_question(prompt): response = openai.Completion.create( engine="text-davinci-003", # 使用指定引擎名称代替假想中的"gpt-4v" prompt=prompt, max_tokens=150 ) return response.choices[0].text.strip() print(ask_question("What is quantum mechanics?")) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值