论文翻译:arxiv-2024 Evading Data Contamination Detection for Language Models is (too) Easy

Evading Data Contamination Detection for Language Models is (too) Easy
https://arxiv.org/abs/2402.02823

逃避语言模型的数据污染检测(太)容易了

摘要

大型语言模型(LLMs)广泛存在,它们在基准测试中的表现经常指导用户偏好一个模型而不是另一个。然而,这些模型训练所用的大量数据可能会无意中导致与公共基准测试的数据污染,从而破坏性能测量。尽管最近开发的数据污染检测方法试图解决这个问题,但它们忽略了恶意模型提供者故意污染以逃避检测的可能性。我们认为这种情况至关重要,因为它对公共基准测试用于LLM评估的可靠性产生了怀疑。为了更严格地研究这个问题,我们提出了模型提供者和数据污染检测方法的分类。这揭示了现有方法的漏洞——我们展示了如何利用这些漏洞,通过逃避增强学习(EAL),这是一种简单但有效的污染技术,显著提高了基准测试性能,同时完全逃避了当前的检测方法。

1. 引言

大型语言模型(LLMs)的流行及其在广泛任务上的适用性,导致了该领域的重大投资,许多公司竞相训练最佳模型。准确评估这些模型的质量对于跟踪该领域的进展和为特定任务选择合适的模型至关重要。为此,为广泛的任务开发了高质量的基准测试。数据污染检测这些基准测试通常公开,以允许评估新模型。然而,由于LLMs通常在抓取的网络数据上训练,基准测试样本可能无意中成为训练数据集的一部分。这种数据污染可能导致基准测试性能膨胀和评估结果不准确。为了缓解这个问题,模型提供者和第三方开发了检测和量化数据污染对模型性能影响的方法。恶意行为者然而,高竞争压力和重大的财务风险可能激励恶意行为者积极污染他们的模型,以提高基准测试性能同时逃避检测。至关重要的是,这种恶意设置目前在评估数据污染检测方法时根本没有考虑。

本工作:逃避检测我们展示了所有当前的检测方法都可以通过训练重新表述的基准测试样本来逃避,同时仍然提高性能(见图1)。我们认为这危及了当前基准测试的完整性,并强调了在恶意设置中系统研究数据污染检测的必要性。系统化(去)污染实践为了使我们能够如此严格地研究污染检测和逃避方法,我们首先定义了四种模型提供者原型,取决于他们的(去)污染实践。我们在图2中为这些原型的整个训练和评估流程进行了说明:积极行动者采取积极措施有效去污染他们的训练数据,诚实但疏忽的行动者不积极污染他们的训练数据,但采取无效或根本不采取行动来防止污染,恶意行动者积极污染他们的训练数据以提高基准测试性能。我们进一步区分公开恶意和逃避恶意行动者,后者采取额外行动以逃避检测。我们根据这些类别回顾当前的去污染实践,并得出结论,大多数模型提供者可能是诚实但疏忽的,这对他们模型的性能产生了怀疑。

逃避增强学习最后,我们根据这些类别回顾当前的检测方法,以及它们(隐含地)对模型提供者和模型访问的假设。这种分析使我们能够提出逃避增强学习(EAL),这是一种基于在微调阶段重新表述基准测试样本的技术,针对有和没有访问训练数据的检测方法。我们展示了这种攻击可以逃避所有当前的检测方法(见图1),并且仍然显著提高了基准测试性能,最高可达15%。

主要贡献我们的主要贡献是:
• 我们定义了四种(去)污染设置,突出了恶意行为者的风险(§3)。
• 我们讨论了当前污染检测方法所做的假设(§4)。
• 我们提出了EAL,一种简单但有效的基于重新表述的检测逃避技术(§5)。
• 我们展示了我们的攻击逃避了所有当前的检测方法,同时仍然显著提高了基准测试性能,最高可达15%(§6)。
在这里插入图片描述

图1:逃避污染检测可以非常有效地完成
在这里插入图片描述

图2:四种模型训练原型的概述。恶意、诚实但疏忽和积极行动者执行不同的数据预处理。逃避恶意行动者执行额外步骤以避免污染检测。这允许恶意行动者获得最佳的清洁性能。归属在附录A中。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值