SCOOTER——揭开图像如何骗过人工智能检测

概述

论文地址:https://arxiv.org/pdf/2404.12653
随着机器学习模型渗透到我们的生活中,对抗性实例威胁着人工智能系统的安全性。在图像领域,那些被巧妙修改成人类无法察觉的图像可以极大地欺骗最先进的机器学习模型。这些样本包含的微小变化通常对人类来说是明显的差异,但对机器学习模型来说却毫无意义。使用这类样本进行攻击会导致机器学习模型做出错误的预测或表现出错误的行为。

传统上,由于对图像的修改有限,这类攻击相对容易抵御。然而,最近的研究表明,在保持自然外观和感觉的前提下,可以生成不受限制修改的敌对样本。攻击者可以利用这种自由度发起超出传统防御假设范围的攻击。

这种 "不受限制的敌意样本 "真的不会被人类察觉吗?严格的人类评估实验对评估其质量至关重要。在本文中,我们提出了专门针对基于图像的攻击的人类评估框架 SCOOTER,并为研究人员解决这一重要问题提供了途径。

相关研究

与本文最相关的前人研究是(Otani 等人,2023 年)对文本到图像生成模型的评估协议。该研究提供了特定领域的问题、用户界面、实验设计建议和结果报告模板。然而,它并没有充分涵盖对缺乏经验的研究人员非常重要的实验设计细节,也没有提及如何确保数据质量。例如,没有包括注意力检查和教学操作检查等标准方法。此外,不建议披露参与者的资格要求,因为这会增加参与者的自我误认。

另一项相关工作是(Zhou 等人,2019 年)收集人类图像质量评分的基本框架。从这一框架中产生的 HYPEtime 和 HYPE∞ 协议被广泛应用于主观图像质量评估任务中,但也存在与(Otani 等人,2023 年)类似的弱点。

在借鉴以往研究成果的同时,本研究旨在严格界定实验设计的细节,为缺乏经验的研究人员提供支持。具体来说,它采取了一些措施来保证数据质量,如注意力检查、教学操作检查和参与者资格要求私有化。

拟议方法(SCOOTER)

本文提出了一个用于人类评估无限制对抗样本的框架 SCOOTER(Systemising Confusion Over Observations To Evaluate Realness)。(1).

  1. 模块化设计的网络应用程序:基于 Flask 的网络应用程序,可轻松集成图像。 2. 研究协议:指导用户详细完成在线研究的每个步骤。 3.在线排行榜:可针对不同目标模型比较最先进的攻击技术。
    4. 图像数据库:收集生成的敌对样本,供进一步分析。

拟议方法的核心是一项 13 分钟的在线研究。学习流程如下

1. 色觉测试(图 1):为排除色盲参与者,确定了五幅石原型图像。

2. 理解检查(图 2):展示六对图像,只有能够正确判断至少五对正确图像的参与者才能进入主要研究。

3. 主要研究(图 3):使用滑块输入对 106 幅图像的修正程度进行评分,连续值从 -100(无修正)到 +100(修正)。其中 50 幅为未修正图像,50 幅为敌对样本,6 幅为警戒检查图像。

它还提出了一种方法,用于根据经验估算有统计意义的研究需要的参与者人数;它计划为三种攻击方法中的每种方法收集 690 名参与者的数据,以确定足够的样本量。

总之,SCOOTER 是一个支持在不受限制的敌对样本上进行人体评估实验的综合框架。建议的研究协议和估算参与人数的方法将在提高该领域的研究质量方面发挥重要作用。

试验计划

本文的重点是为人类评估不受限制的敌对样本提出一个框架 SCOOTER,目前还没有在实践中使用 SCOOTER 进行实验。

在对所提方法的描述中,介绍了一种实验设计,用于根据经验估算所需的参与者人数。具体来说,计划使用经过对抗训练的 ResNet-50 模型(Salman 等人,2020 年)为三种攻击方法中的每一种收集 690 名参与者的数据,以确定足够的样本量。这种实验设计将在确保使用 SCOOTER 进行研究的质量方面发挥重要作用。

不过,该计划目前仅处于建议阶段,尚未进行实际实验。本文的重要意义在于,它为解决人类对无限制对抗样本进行评估这一重要问题提供了一个框架。我们希望使用 SCOOTER 开展进一步的实证实验,并报告实验结果。

结论

鉴于人工智能图像生成技术的飞速发展,基于图像的无限制对抗攻击预计将在不久的将来发挥重要作用。拟议的框架 SCOOTER 可作为一个工具箱,支持该领域的高质量研究,并提高人们对该领域研究的认识。

未来,希望 SCOOTER 的演示能证明其有效性,并鼓励对无限制的敌方样本进行更多研究。探索与人工智能图像生成技术之间的联系,还能带来现实的威胁应对措施。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

知来者逆

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值