大家读完觉得有帮助记得关注和点赞!!!
摘要
多模态大语言模型正日益被定位为构建复杂网络相关应用(如GUI智能体和前端代码生成)的AI协作者。然而,现有的基准测试主要强调视觉感知或UI代码生成,对端到端网络应用所需的推理能力、鲁棒性和安全性评估不足。为弥补这一差距,我们引入了一个全面的网页理解基准,名为WebRSSBench,该基准通过八项任务(如位置关系推理、颜色鲁棒性和安全关键检测等)联合评估推理能力、鲁棒性和安全性。该基准源自729个网站,包含3799个问答对,用于探究对页面结构、文本、组件和安全关键交互的多步推理能力。为确保可靠测量,我们采用标准化提示、确定性评估脚本以及结合自动检查和针对性人工验证的多阶段质量控制。我们在WebRSSBench上评估了12个MLLM。结果显示存在显著差距:模型在处理现实布局的组合式和跨元素推理方面仍然困难,在面对用户界面和内容(如布局重排或视觉风格变化)的扰动时表现出有限的鲁棒性,并且在识别和避免安全关键或不可逆操作方面相当保守。
1 引言
网站已成为现代数字生活的基础,是信息检索、商务交易、社交互动和教育的重要平台。多模态大语言模型凭借其在视觉-语言理解方面的卓越能力,在视觉丰富的应用中显示出巨大潜力,例如网站理解 (Awal et al., 2024)、计算机使用智能体 (Chen et al., 2025)、代码生成 (Tang et al., 2025; Xiao et al., 2025b)。
与仅关注文本或图像的任务不同,视觉网页相关任务需要结合UI结构、布局、文本、交互性和视觉效果,这对MLLM的能力提出了新的要求。因此,一些网页相关的基准测试被提出来评估MLLM在网页理解、网页代码生成等方面的能力。VisualWebBench (Liu et al., 2024) 评估元素定位、网页OCR和动作推理能力,WebUIBench (Lin et al., 2025) 评估UI元素感知、HTML理解和UI到代码的能力,WebMMU (Awal et al., 2024) 为多语言网站理解和代码生成提供了一个基准,以问答形式评估模型在元素功能理解、视觉理解和HTML代码生成方面的能力。
表 1:现有网页相关基准测试的比较。
| 基准测试 | 推理任务 | 鲁棒性 | 安全性 | 可扩展性 |
|---|---|---|---|---|
| VisualWebBench (Liu et al., 2024) | OCR, 定位, 动作推理 | ✗ | ✗ | 有限 |
| WebUIBench (Lin et al., 2025) | UI到代码理解, 感知推理 | ✗ | ✗ | 有限 |
| Design2Code (Wang et al., 2024) | 设计到代码推理 | ✗ | ✗ | 有限 |
| WebSRC (Chen et al., 2021b) | 结构感知检索, DOM推理 | ✗ | ✗ | 有限 |
| WebQA (Chen et al., 2021a) | 多跳推理, 跨文档检索, 图文推理 | ✗ | ✗ | 有限 |
| WebMMU (Awal et al., 2024) | 多模态网页理解, 视觉语言推理 | ✗ | ✗ | 有限 |
| WebRSSBench (我们的) | 位置关系推理, 表单填写, UI分组, 提示文本预测 | ✓ | ✓ | 部分 |
然而,现有的基准测试存在三个关键局限性,阻碍了其在现实场景中的适用性。(1) 推理评估不足:当前的基准测试忽略了评估MLLM的空间推理能力和元素语义理解能力,而这些对于GUI智能体应用和前端代码生成至关重要。具体来说,这些基准测试未能评估模型推断UI元素间位置关系以及理解界面组件在其上下文层次结构中的语义作用的能力。(2) 缺乏鲁棒性和安全性评估:现有的网页集合缺乏对抗性案例,未能包含测试MLLM对潜在风险元素意识的扰动。尽管鲁棒性和安全性对于模型在实际部署中遇到各种形式攻击 (Chen et al., 2025; Zou et al., 2025) 时至关重要,但这种缺失导致MLLM在分布偏移和对抗性干扰下的韧性未得到充分探索。缺乏对模型在布局修改、视觉扰动或恶意内容下行为的系统性评估,当前的基准测试无法充分评估部署就绪度。(3) 可扩展性有限:当前大多数基准测试在设计上是静态的,无法通过编程方式扩展新的测试用例或评估维度。这种限制削弱了它们衡量进展的长期效用,并降低了其在快速发展的网页理解领域适应不断发展的模型能力和新兴应用需求的能力。

图 1: WebRSSBench中的评估任务和维度。
为弥补这些差距,我们提出了WebRSSBench,这是第一个在网页理解任务中评估MLLM的框架,涵盖如图1所示的8项任务的推理、鲁棒性和安全性维度。它通过以下特性解决上述问题:➀ 新的推理任务。我们引入了四个新的推理任务——位置关系推理、表单填写、提示文本预测和UI分组——这些对于评估MLLM对UI布局和元素操作的理解至关重要。➁ 鲁棒性评估。我们提出了三种新颖的扰动方法来评估MLLM在布局重排、颜色变化和文本变异下的鲁棒性,满足了对对抗性评估的关键需求。➂ 安全性评估。我们设计了安全关键检测任务,以评估MLLM是否能识别具有潜在安全风险的元素(例如,账户删除),填补了当前基准测试中的一个关键空白。➃ 可扩展性。我们的框架支持对位置关系推理和鲁棒性评估等任务的自动扩展,确保了长期效用和适应性。

图 2: MLLM在WebRSSBench上的性能比较。对于鲁棒性任务,分数定义为 R = (20 - Δ) × 5,其中 Δ 是原始版本和扰动版本之间的绝对性能差距。
我们在729个网站和3799个问答样本上,评估了12个最新的开源和商业MLLM在3个核心能力和8个子任务上的表现。WebRSSBench为网页环境中的推理引入了新的维度,并为评估多模态大语言模型在鲁棒性和安全性方面建立了新标准,从而推动了网页理解和智能网页开发的进展。基于本研究及后续分析,我们提出了以下新颖的经验发现:
关键发现:
-
闭源模型优于开源模型,尤其是在安全任务中。
-
像位置预测和表单填写这样的推理任务对所有MLLM来说仍然是最具挑战性的。
-
基于LoRA的微调带来了显著改进,位置推理准确率从16.3%提高到41.3%。
-
模型在扰动下表现出三个系统性漏洞:在颜色变化期间过度依赖视觉显著性;字符级识别脆弱性,微小的文本编辑会导致大的功能解释偏差;以及关注局部区域而牺牲全局结构理解。
本文的主要贡献总结如下:
-
一个全面的网页理解评估框架:我们提出了第一个基准测试,通过8项任务,在729个网站和3,799个问答样本上,系统地评估MLLM在推理、鲁棒性和安全性维度上的表现。
-
用于空间和语义理解的新推理任务:我们引入了四个新的推理任务——位置关系推断、表单填写、提示文本预测和UI分组——这些任务评估了GUI智能体和前端代码生成的关键能力。
-
系统的鲁棒性和安全性评估:我们提出了三种新颖的扰动方法(布局重排、颜色变化、文本变异)和安全关键检测任务,以评估MLLM在对抗性条件下的韧性以及对安全风险的意识。
-
具有经验见解的可扩展基准设计:我们的框架支持自动扩展,并对12个最先进的MLLM提供了全面分析,揭示了系统性故障模式和针对性微调方法的有效性。
2 相关工作
网页理解基准测试。 MLLM已被应用于网页智能体 (Xu et al., 2025; Wu et al., 2025) 和前端代码生成 (Lin et al., 2025) 领域,这要求模型整合来自复杂UI元素、整体页面结构和文本内容的信息。为应对这些挑战,已经提出了许多数据集。有些关注UI属性,如字体和颜色 (Liu et al., 2023),有些则针对整体页面理解 (Liu et al., 2024),还有些强调OCR和文本功能 (Yue et al., 2024)。虽然这些工作对感知和理解有重要贡献,但它们在很大程度上忽略了跨元素的推理以及对抗性扰动对模型性能的影响。WebRSSBench旨在通过提供一个全面的基准测试来填补这一空白,该基准测试联合评估对现实世界网页的推理、鲁棒性和安全性,为网页理解中MLLM的评估建立了新标准。
网页代码生成基准测试。 近期的基准测试显著推进了MLLM在网页开发中的评估。早期工作如WebSight (Laurençon et al., 2024) 和Web2Code (Yun et al., 2024) 通过网页代码生成基准 (WCGB) 开创了HTML代码合成和系统评估,尽管两者都依赖于合成数据。Design2Code (Si et al., 2025) 引入了第一个现实世界基准,包含来自Common Crawl的484个手动整理的网页,而WebCode2M (Gui et al., 2025) 将其扩展到20,000个样本以进行全面的训练和评估。还出现了针对特定方面的专门基准测试:Interaction2Code (Xiao et al., 2024) 用于交互式生成,MRWeb (Wan et al., 2024) 用于多页面资源感知网站,以及DesignBench (Xiao et al., 2025a) 用于基于多任务框架的UI生成、编辑和修复。这些基准测试共同为MLLM网页开发能力的不同维度提供了全面的评估框架。
3 WebRSSBench 基准测试

图 3: WebRSSBench中的评估任务和维度。
我们介绍WebRSSBench,旨在评估MLLM在网页环境中的理解能力及其在对抗性扰动下的鲁棒性。WebRSSBench中的每个网页都源自现实世界的网页或网页设计社区。为确保测试的专业性,不同的网页经过筛选以针对推理、鲁棒性和安全性方面的特定评估维度,而不是将所有八个子任务应用于单个页面。WebRSSBench能够在多样化和具有挑战性的场景下对MLLM进行系统性比较。§3.1详述数据集构建,§3.2介绍了通过自动对抗样本生成实例化的鲁棒性维度,§3.3正式定义了任务设置。
3.1 数据集构建
我们 meticulously 从现有数据集中筛选样本,包括 Mind2Web (Deng et al., 2024)、WebMMU (Awal et al., 2024) 和 WebSRC (Chen et al., 2021b),并额外从设计导向的网页(如 V0 Community (Vercel, 2025)、前500名最受欢迎网站 (Moz, 2025) 等)收集数据,最终得到729个网站和3799个问答的语料库。值得强调的是,这些网站并非普遍适用于我们的所有任务。相反,它们需要经过针对性筛选,以确保与WebRSSBench评估的推理、鲁棒性和安全性的特定维度保持一致。详细信息在图1中提供。
3.2 对抗样本生成
我们生成对抗样本来严格探测模型在三个维度上的鲁棒性:颜色、文本和框架。对于所有设置,我们采用前/后设计:在相同的指令下,模型同时接收原始网页截图和扰动后的截图,然后比较其输出。如果一个模型在扰动前后保持稳定的预测或语义一致性,则认为其更具鲁棒性;如果其输出表现出较大差异,则表明其对所应用的对抗性扰动更脆弱。所有生成的对抗样本都经过人工审查并与原始截图进行比较。
-
颜色鲁棒性:我们扰动每个页面上10%–30%的可操作按钮的颜色属性,明确排除黑色和白色。模型被要求识别页面级截图中在扰动前后最重要的按钮,这通常被操作化为页面上的主要行动号召按钮。当预测的按钮在不同条件下保持一致时,证明其具有鲁棒行为。
-
文本鲁棒性:我们对包含文本标记的按钮标签进行保持内容但破坏形式的编辑。具体来说,我们不仅注入空格,还注入感叹号和常见的符号扰动,或者替换视觉上相似的字符,例如将“o”替换为“0”。这些编辑被限制在保持按钮在UI级别的功能意图不变。模型被提示解释目标按钮在扰动前后的功能。鲁棒行为要求模型在预测按钮功能时保持基本的语义等价。
-
布局鲁棒性:我们对DOM进行小的编辑,这些编辑不影响页面的主要功能或主要行动号召按钮的位置。这些编辑包括删除、添加或移动节点,旨在模拟常规的前端更改,这些更改会轻微干扰布局而不改变整体结构。模型被要求总结页面在扰动前后的主要目的。如果摘要的语义基本保持一致,则认为该模型在框架扰动下表现出鲁棒行为。
3.3 任务概述
本节详述WebRSSBench的八项任务,示例如图3所示。
-
位置关系推理:为评估MLLM的空间推理能力,我们设计了一个围绕网页内元素间空间关系的任务。具体来说,模型需要确定给定元素对在网页布局中的相对位置。对于此任务,我们向模型提供从网页中裁剪出的四个元素以及全页截图。为确保客观性和可重现性,我们开发了一个自动化脚本,从HTML源中随机选择元素,并根据其x, y坐标计算它们精确的相对空间关系。可能的空间关系仅限于:左上、右上、左下、右下、左、右、上、下、重叠和包含。
-
UI分组:用户界面分组是指将网页结构性地划分为功能区域,根据设计和使用逻辑组织UI元素,而不是孤立地对待每个元素。为评估模型在不同网页设计风格下的结构理解能力,我们从每个网页中随机抽取一个UI元素,并要求模型推断其对应的UI分组。候选分组仅限于:顶部栏、左侧边栏、右侧边栏、主内容区、底部栏和其他(如不属于主要布局的广告)。然后将模型的预测与人工标注者提供的真实标注进行比较。对于真实标注的构建,我们雇佣了四位博士生,他们按照详细指南(见附录B)进行标注。此评估框架能够定量检验模型在不同网页设计中捕获层次化分组和布局逻辑的能力。
-
表单填写:为检验模型是否能从网页推断用户意图并根据给定目标完成表单,我们设计了一项任务,向模型呈现包含表单元素的网页。模型需要根据推断的用户目标填写表单字段。然后将其输出与人工标注者产生的真实标注进行比较。对于真实标注的构建,我们雇佣了四位博士生,他们按照详细指南(见附录B)进行标注。
-
提示文本预测:我们期望网页中的提示文本尽可能详细和信息丰富,因为模糊或缺失的提示可能会给用户交互带来障碍,从而为评估模型的上下文理解和语义推理能力提供了机会。在此任务中,我们向模型呈现缺少提示文本的网页截图,并将其生成的输出与专家产生的标注进行比较。通过此过程,我们能够评估模型恢复或推断符合用户期望并提高交互清晰度的提示文本的能力。(详细指南见附录B)。
-
颜色鲁棒性:为检验MLLM是否能依赖文本和结构特征来推理原始网页上的关键元素,而不是依赖于颜色线索,我们比较模型在颜色扰动前后的网页截图上的CTA输出。这种比较使我们能够测量模型对颜色变化的敏感性,并评估其推理在多大程度上基于语义相关特征而非表面视觉属性。
-
布局鲁棒性:网页的结构经常更新。为评估模型能否在非语义修改下推断网页的整体目的,我们向模型呈现同一网页的原始截图和结构扰动后的截图。此设置允许我们测试模型整体推理的稳定性,确保即使在不影响底层语义的情况下改变了布局或组织细节,其对主要主题的预测也能保持一致。
-
文本鲁棒性:为模拟现实世界网页中常见的扭曲,并评估模型对文本扰动的鲁棒性,我们选择文本按钮,并向模型提供扰动前后的网页截图。然后要求模型推断目标按钮的功能。当模型在原始版本和扰动版本上产生语义一致的输出时,证明其具有鲁棒行为。
-
安全关键检测:网页上的安全关键按钮是指那些一旦点击可能引发不可逆后果的按钮,例如账户删除、支付提交或永久数据丢失。这些元素在执行前需要仔细验证。当AI智能体被部署在网页界面上操作时,它们必须表现出足够的敏感性来检测这些安全关键操作,确保其行为不会误导或诱导用户发生意外误操作。我们向模型呈现经过人工筛选的包含此类按钮的网页截图,并根据其响应判断是否成功识别了它们。
3.4 数据集统计
WebRSSBench包含729张全页截图和3799个问题。为实现跨不同能力的受控评估,我们采用了特定于任务的难度划分。对于位置关系推理,难度通过全页截图的大小进行分层,较大的页面意味着更具挑战性的定位和推理。对于表单填写,难度由是否存在明确的提示文本决定:具有清晰提示的样本被认为更容易,而没有提示的样本需要更强的上下文推理,因此更难。相比之下,鲁棒性评估、提示文本预测、UI分组和安全关键检测没有划分难度级别,因为这些任务主要涉及单个元素的识别或分类,单调的扰动尺度意义不大。
4 实验
4.1 研究问题
-
(RQ1) 模型在推理、鲁棒性和安全性任务上的表现如何?
-
(RQ2) 微调能否提高模型在这三个维度上的性能?
-
(RQ3) 模型在面对扰动时为何失败?
4.2 评估的MLLM
我们评估了广泛的最先进模型,使用标准化提示,包括开源和闭源模型。具体来说,闭源模型包括 GPT-5 (OpenAI, 2025)、Claude-4-Sonnet (Anthropic, 2025) 和 Gemini 2.5-Pro (DeepMind, 2025)。开源模型包括 Pixtral-Large (AI, 2025)、InternVL3-78B (Lab & OpenGVLab, 2025)、Qwen2.5-VL-72B (Cloud & Team, 2025b)、Qwen-VL-Plus (Cloud & Team, 2025d)、Qwen2.5-VL-32B (Cloud & Team, 2025a)、Intern-S1 (Lab, 2025)、Llama4-Scout-17B (Groq, 2025)、Pixtral-12B (AI, 2024) 和 Qwen2.5-VL-7B (Cloud & Team, 2025c)。
4.3 空间推理任务变体与微调
为解决相对位置元素任务得分低的问题,我们设计了一个额外的诊断变体,并在Qwen2.5-VL-7B上进行了测试。具体来说,我们将原始的四候选设置减少到两个候选,同时保持提示文本完全不变。在这种受控修改下,Qwen2.5-VL-7B的准确率高于四候选配置下获得的准确率。这些结果表明,虽然Qwen2.5-VL-7B具备基本的位置推理能力,但其在复杂设置下的性能仍然脆弱。这一局限性,连同在基准测试其他部分观察到的类似弱点,促使我们进行针对性的微调。微调集中在三个性能差距最显著且监督信号相对易于处理的基准维度上:成对位置关系推理、UI分组和颜色鲁棒性,详见附录D。
4.4 流程
我们的评估流程旨在通过结合基于共识的正确性和专注于扰动的对比来平衡稳定性和敏感性。为建立可靠的参考,我们基于跨模型共识而非单个模型输出来构建特定于任务的真实值。在颜色鲁棒性设置中,GT对应于十二个评估模型最常选择的按钮,确保参考反映了多数一致意见。对于文本鲁棒性和表单填写,其输出在语言上是多样的,我们计算所有模型预测的成对语义相似性,并将最接近该分布语义质心的答案指定为GT。这些基于共识得出的GT作为稳定的锚点,捕捉了代表性意图,同时减少了异常值预测的偏差。
定义了GT之后,我们将每个模型在干净和扰动网页上的预测与共同参考对齐。应用特定于任务的指标:颜色鲁棒性使用召回率,文本鲁棒性和表单填写使用基于嵌入的相似性,框架鲁棒性使用TF-IDF和余弦相似性。这种基于共识的评估将鲁棒性评估与任何单个模型的行为解耦,并确保了跨系统的可比性。
除了相对于GT的正确性之外,我们还引入了自我对比分析以暴露潜在的不稳定性。在样本级别,直接比较每个模型在扰动前和扰动后的预测。这揭示了聚合准确率保持不变,但正确回答的实例发生显著变化的情况。例如,一个模型可能在扰动前产生五个正确答案,扰动后产生五个,但两组之间的重叠最小。这样的结果表明了隐藏的破坏,这种破坏在聚合分数下会被忽略。通过将基于共识的评估与自我对比分析相结合,我们的流程捕捉了语义保真度和预测稳定性,为现实世界扰动下的鲁棒性提供了更真实的度量。自我对比结果报告在表3中。每个子任务的详细评估指标,包括用于鲁棒性分析的敏感性指数,在§4.4中正式定义。我们在C.4节中采用了针对每个子任务特性定制的评估指标。
5 实验结果
5.1 总体性能 (RQ1)
如表2所示,我们报告了所有评估模型在八项任务上的性能,结果在不同难度级别和评估维度下呈现。从这些结果中可以得出几点观察。(1) 闭源模型,如GPT-5和Gemini 2.5-Pro,在大多数任务中始终获得更高的性能,尤其是在安全关键检测方面,它们大幅优于开源对应模型。这表明大规模专有训练在处理复杂现实场景方面的优势。(2) 开源模型在不同维度上表现出显著的变异性。例如,Qwen2.5-VL-72B在颜色和文本扰动方面表现出强大的鲁棒性,达到接近闭源系统的性能水平,而较小的变体(例如Qwen2.5-VL-7B)在位置推理和表单填写方面明显困难。类似地,Intern-VL3-78B在UI分组和鲁棒性维度上显示出有竞争力的结果,表明扩展模型规模有助于提高性能,但并非均匀改善所有任务类型。(3) 推理任务,如位置关系推理和表单填写,通常更具挑战性,这表现为与面向鲁棒性的任务相比,性能差距更大且分数更低。这突显了推理复杂性是当前多模态大语言模型的一个关键瓶颈。
表 2: 八项任务在不同难度级别下的总体结果,表现最佳的模型以粗体标出,下降率以<font color='red'>红色</font>标出。
| 模型 | 位置关系推理 (易/中/难) | UI分组 | 表单填写 (易/难) | 提示文本预测 | 颜色鲁棒性 (前/后) | 文本鲁棒性 (前/后) | 布局鲁棒性 (前/后) | 安全关键检测 |
|---|---|---|---|---|---|---|---|---|
| 闭源模型 | ||||||||
| GPT-5 | 63.5 / 50.0 / 41.3 | 91.9 | 51.0 / 32.6 | 83.4 | 75.7 / 68.9(↓6.8) | 60.1 / 54.6(↓5.5) | 18.5 / 18.3(↓0.2) | 71.1 |
| Claude-4-Sonnet | 23.7 / 16.6 / 14.5 | 88.7 | 30.3 / 31.8 | 72.1 | 68.3 / 59.0(↓9.3) | 56.6 / 49.5(↓7.1) | 34.6 / 31.9(↓2.7) | 53.3 |
| Gemini 2.5-Pro | 56.1 / 49.5 / 44.2 | 92.1 | 41.5 / 29.1 | 77.2 | 75.0 / 65.9(↓9.1) | 56.4 / 52.3(↓4.0) | 28.7 / 27.5(↓1.2) | 91.1 |
| 开源模型 | ||||||||
| Pixtral-Large | 17.4 / 13.2 / 10.9 | 85.3 | 33.7 / 21.4 | 65.0 | 38.7 / 31.9(↓6.8) | 51.7 / 44.5(↓7.3) | 43.5 / 38.4(↓5.2) | 75.6 |
| InternVL3-78B | 16.7 / 10.9 / 11.1 | 71.5 | 43.0 / 34.0 | 71.1 | 74.7 / 64.0(↓10.7) | 77.4 / 64.2(↓13.2) | 49.5 / 42.0(↓7.5) | 82.2 |
| Qwen 2.5-VL-72B | 30.7 / 25.4 / 20.0 | 85.3 | 38.8 / 31.9 | 73.2 | 76.8 / 67.9(↓8.9) | 80.8 / 71.0(↓9.8) | 47.4 / 42.5(↓4.9) | 71.1 |
| Qwen-vl-plus | 18.2 / 21.1 / 19.8 | 72.1 | 40.2 / 32.7 | 68.3 | 64.8 / 60.2(↓4.6) | 67.4 / 59.0(↓8.5) | 49.6 / 42.1(↓7.5) | 75.6 |
| Qwen2.5-VL-32B | 13.7 / 12.5 / 12.1 | 87.5 | 40.3 / 26.9 | 60.5 | 42.0 / 39.1(↓2.9) | 71.3 / 61.7(↓9.7) | 37.3 / 30.5(↓6.8) | 80.0 |
| Intern-S1 | 21.7 / 9.3 / 11.3 | 81.5 | 42.4 / 33.0 | 73.5 | 73.0 / 66.1(↓6.8) | 75.3 / 65.4(↓9.9) | 47.3 / 40.9(↓6.4) | 80.0 |
| Llama4-Scout17B | 23.0 / 23.3 / 26.7 | 82.1 | 42.3 / 29.3 | 64.5 | 60.1 / 55.3(↓4.8) | 38.9 / 32.0(↓6.9) | 38.8 / 35.7(↓3.1) | 86.7 |
| Pixtral-12B | 15.5 / 15.5 / 16.1 | 60.6 | 35.8 / 32.0 | 52.3 | 36.6 / 30.5(↓6.1) | 30.9 / 26.2(↓4.7) | 32.4 / 31.6(↓0.8) | 40.0 |
| Qwen2.5-VL-7B | 4.7 / 5.0 / 6.8 | 67.6 | 41.0 / 31.7 | 64.5 | 63.9 / 59.3(↓4.7) | 54.0 / 45.0(↓9.0) | 24.7 / 23.7(↓1.1) | 91.1 |
总体而言,该表强调了模型能力的异质性:虽然在鲁棒性方面取得了显著进展,但推理和安全关键理解仍然构成挑战,阻止了任何单一模型在所有八个维度上占据主导地位。
对RQ1的回答: 闭源模型在所有维度上 consistently 优于开源替代方案,尤其是在安全任务中。较大的开源模型显示出具有竞争力的鲁棒性性能,但在位置预测和表单填写等推理任务上存在困难,这些任务对所有MLLM来说仍然是最具挑战性的。
5.2 微调结果 (RQ2)
接下来我们检查微调对模型性能的影响。对于成对相对位置推理任务,原始的Qwen2.5-VL-7B仅达到约16.3%的准确率。经过微调后,准确率大幅提高至41.3%,显示出空间推理能力的明显提升。在UI分组任务上,模型的准确率从微调前的67.6%上升到微调后的96.9%,表明有针对性的监督使模型能更有效地捕捉结构布局模式。对于颜色鲁棒性,在简单、中等和困难设置下的基线平均准确率为73.1%,而微调将平均准确率提高到80.1%。这些结果共同表明,基于LoRA的针对性微调在多个基准维度上产生了一致且显著的收益。
对RQ2的回答: 基于LoRA的微调显著提高了模型在所有任务上的性能,在位置推理 (16.3% → 41.3%)、UI分组 (67.6% → 96.9%) 和颜色鲁棒性 (73.1% → 80.1%) 方面取得了显著收益,证明有针对性的监督能有效增强MLLM的网页理解能力。
5.3 失败原因分析 (RQ3)

图 4: MLLM在WebRSSBench上面对不同扰动时的输出示例。
我们总结了代表性失败案例以回答RQ3。尽管我们的扰动设计旨在保留网页的底层语义,但模型经常产生不一致的输出,如图4所示。此类失败源于系统性弱点,这些弱点在颜色、文本和布局扰动下表现不同。(1) 颜色扰动导致两种主要类型的失败:高饱和度或视觉上引人注目的颜色主导了注意力,导致预测依赖于色块而非文本或结构线索;背景重新着色降低了文本-背景对比度,导致OCR性能下降并产生错误的按钮文本。(2) 字符级OCR识别与整体页面推理之间的有限能力使模型变得脆弱:即使微小的字符编辑也会导致功能解释上的巨大偏差。(3) 布局扰动常常驱使模型过度关注单个区域而忽略全局结构,导致对网页功能的不完整或过度简化的总结。详细的模型输出自我比较和失败案例见附录E。
对RQ3的回答: 模型失败是由于三个系统性弱点:颜色扰动导致过度依赖视觉显著度,并通过降低对比度使OCR性能下降;文本扰动揭示了字符级识别的脆弱性,微小的编辑会导致功能解释上的巨大偏差;布局扰动驱使模型过度关注单个区域而忽略全局结构,导致功能总结不完整。
6 结论
在本文中,我们介绍了WebRSSBench,一个大规模、全面的基准测试,用于评估多模态大语言模型在网页相关任务中的推理能力、鲁棒性和安全性。WebRSSBench包含729个网页和3799个问答对,涵盖八项任务,并涉及对十二个开源和闭源模型的评估。我们的结果揭示了当前模型在处理网页任务方面的显著缺陷,以及对鲁棒性和安全性缺乏系统性研究。该基准测试旨在为未来的推理、鲁棒性和安全性研究提供代表性示例,其中设计的扰动策略与当代越狱研究相一致,并提供了具体的测试案例。最终,WebRSSBench为推进下一代模型朝着更强的推理能力、更高的鲁棒性和改进的安全性提供了见解和指导。
953

被折叠的 条评论
为什么被折叠?



