- 博客(247)
- 资源 (4)
- 收藏
- 关注
原创 ICML2025|基于Logits的大语言模型端到端文本水印方法
(4)跨模型泛化性差,迁移到其他大模型需重新训练。为解决这些问题,该论文提出了端到端logits扰动水印模型,通过编码器与解码器的联合优化实现鲁棒性与语义保持的平衡,利用“在线提示”机制将非可微操作转化为可微代理,并通过“跨模型适配转换器”实现不同大模型间的零样本迁移。为验证模型的跨语言模型泛化能力,作者在训练阶段仅使用OPT-1.3B进行端到端优化,并在测试阶段直接将已训练模型应用于Mixtral-7B、Llama3-8B和Llama3.2-3B等不同架构的大模型上进行零样本推理,无需额外微调。
2025-11-13 11:10:33
1231
原创 NeurIPS 2024|大语言模型高保真文本水印新范式
相比之下,WaterMax在不同模型与温度设置下均保持稳定且接近1的检测率,同时几乎不损失文本质量,充分说明其基于chunk的多候选生成与最优选择机制能有效利用文本熵,从而实现跨模型、跨任务的高稳健性与普适性。针对现有文本水印方法在检测性、鲁棒性与质量间难以平衡的三大瓶颈,提出了基于多候选生成与最优选择的端到端水印框架,在不修改模型结构的前提下,通过近乎无失真的生成策略和可解析的鲁棒性建模,实现了跨模型、可解释且高检测率的文本水印方案,成功打破了长期存在的“检测性–鲁棒性–质量”权衡难题。
2025-11-13 10:44:18
1216
原创 CVPR 2025|基于全客户端信息的联邦学习隐私泄露攻击方法
在AlexNet/ResNet的CIFAR-100任务中,作者评估了FedMIA在多种防御策略(客户端差分隐私噪声、梯度稀疏化、MixUp、数据增强/采样等)下的攻击效果与隐私-效用权衡,实验设置包括在不同防御参数下测量攻击的TPR与模型测试误差,验证目的是检验FedMIA对常见防御的鲁棒性;原则,充分利用非目标客户端在多轮通信中的更新信息,并将成员推断问题形式化为单尾似然比假设检验,从而显著提升了攻击的有效性与稳定性。如果该概率较小,说明该更新的特征在非成员分布中非常罕见,从而更可能属于成员样本。
2025-11-12 17:35:36
937
原创 ICML 2025|基于大语言模型的多比特文本水印方法
这些结果表明,本文方法不仅能够在词汇替换和语义重组等自然语言变化下保持稳定的水印信号,还具备良好的自适应恢复能力,充分验证了其在真实语言环境中的鲁棒性与可靠性。研究通过两种语义一致但风格差异微小的LLM改写器交替生成文本,实现了隐蔽的多比特水印嵌入,并结合PPO强化学习实现改写器与检测器的协同优化,使文本既自然流畅又可高精度解码。研究者训练了两种风格略有差异的语言模型改写器,让它们在保持原文意思不变的同时生成具有可识别特征的文本,从而实现高效的信息嵌入与提取。表示语义编码器或基于大型语言模型的改写函数。
2025-11-05 22:30:48
1038
原创 动态目标大模型越狱攻击
评估使用了多元化的指标与判别器来衡量攻击成功率与输出危险性,结果如下表所示, DTA在大多数模型与评估维度上都显著优于这些基线方法,不仅在平均攻击成功率上取得领先,而且在不同模型间表现更稳定,这说明通过动态采样并循环优化目标,DTA能更有效地贴合目标模型的高风险生成区域,从而提升越狱的可靠性与一致性。与以往强制模型生成固定回应的越狱方式不同,DTA创新性地让模型自发生成候选响应,并动态选择其中最具攻击性的输出作为优化目标,从而在自适应循环中不断逼近模型的高风险输出区域。等),代表常见的拒绝或规避性输出。
2025-11-05 11:09:00
1061
原创 ICLR 2026 | 大模型无目标越狱攻击
结果表明,即使在较强的SmoothLLM防御下,UJA依然能够保持60%的攻击成功率,这远高于其他基线方法,如COLD-Attack和GCG,这些方法的成功率在同样的防御环境下显著下降。UJA的思路更聪明:不逼演员背台词,而是改成两步走——先问“裁判最怕听到哪类话”(找到危险的“说话风格”),再把这种“怕”的信号翻译成演员能听懂的方式并教给演员(优化提示),从而在更大的语言空间里更快、更隐蔽地诱导出不安全的回答。,既能让模型输出接近目标结果、又保持语言自然流畅的前提下,找到的最合适的输入提示。
2025-11-05 11:08:39
1265
原创 NeurIPS 2024|解密大语言模型拒绝回答机制
实验采用“方向消融”的策略,即在模型的残差流中移除与拒绝行为相关的特征分量,使模型在生成响应时不再沿该方向进行表示传播。而当拒绝方向被消融后,模型的拒绝率显著下降,生成的回答中开始出现明确的违规或有害内容。这一实验清晰地表明,拒绝方向不仅与安全防护相关联,更是拒绝行为的直接因果触发源,其存在足以单独诱导模型产生拒绝响应,从而验证了该方向在行为层面的因果作用。研究发现,模型的“拒绝回答”行为可以用一个单独的线性方向来表示——即在模型内部有一根“拒绝轴”,如果模型在这个方向上的信号比较强,它就倾向于拒绝回答;
2025-11-05 11:07:38
1317
原创 具有颠覆性的研究:大语言模型完全可逆
这一结果说明 Transformer 的映射在浅层与深层均保持稳定的单射性,几乎在所有输入空间上都是可分辨且可逆的,为论文提出的“语言模型在数学意义上是单射且可逆”的核心结论提供了坚实的实证支撑。然而,该论文的作者提出了相反的观点:通过理论证明与大规模实证研究指出,Transformer语言模型在数学意义上实际上是单射的,即不同输入几乎不会映射到相同的隐藏表示,因此语言模型本质上是可逆的。换句话说,Transformer模型在几乎所有情况下都是单射的,不同的输入序列几乎总是会映射到不同的隐藏表示。
2025-11-05 09:13:58
982
原创 Split learning后门攻击(附代码)
随后,服务端将损失的梯度信息返回给客户端,客户端根据该梯度更新自身模型参数,同时服务端也更新自己的模型参数。下图为该论文总括图,图的上半部分为Split Learning的正常训练流程:客户端对本地样本做前端处理并生成中间特征,发送到服务器端后段模型进行预测并计算损失,服务器再将梯度反馈给客户端,协同完成主任务训练;攻击者控制一个或多个客户端,在训练阶段通过修改部分样本并引入额外的辅助任务,使客户端模型学习到“后门特征编码能力”,从而在推理阶段只对带触发器的输入输出攻击者预设的目标标签。
2025-10-31 11:18:50
1002
原创 深入理解A2A协议
在客户端智能体与服务端智能体的交互过程中,A2A协议定义了若干关键实体,用于描述任务的能力、数据、消息与结果。—— 一个开放、标准化的通信协议,致力于让各类AI代理能够跨框架、跨平台、跨供应商地安全发现、协作、交换信息与分工执行任务,从而推动多代理系统在企业级应用中的规模化与互操作性。在A2A体系中,一个智能体既可以充当客户端发起任务,也可以作为服务端执行任务,具备灵活的双重身份,这为复杂系统中的多代理协作提供了强大的扩展性与适应性。:任务的执行者,接收来自客户端的请求,完成相应操作并返回执行结果。
2025-10-30 11:01:53
987
原创 联邦学习模型共享机制详解(附代码)
FedSGD的更新过程与标准梯度下降形式一致,通过实时汇聚各客户端的梯度信息,实现高精度的同步更新,从而保证模型在全局范围内的梯度一致性。与参数共享类方法(如 FedAvg、FedSGD)相比,FedRepr更关注特征语义的一致性,而非数值权重的统一,因此在非IID数据下更具鲁棒性与稳定性,适合跨领域、跨任务及设备异构的联邦场景。通过这一过程,各客户端能够在共享的语义空间中对齐类特征表示,实现全局特征层面的协同学习,从而在非独立同分布数据条件下提升模型的泛化性与一致性。:客户端上传梯度信息,用于全局更新。
2025-10-29 14:36:26
1198
原创 深入理解MCP协议
MCP协议是由Anthropic提出的开放标准,旨在为大语言模型提供统一的外部数据访问接口。该协议基于JSON-RPC 2.0,通过定义Host、Client和Server三种角色,实现模型与外部系统的安全交互。MCP支持访问数据源、调用工具、集成工作流等功能,同时具备权限管理和多模型协作能力。协议采用JSON消息格式,提供OAuth等安全机制,确保合规访问。示例展示了模型通过MCP查询天气信息的完整交互流程,体现了协议在连接模型与现实世界中的桥梁作用。
2025-10-27 22:43:15
1053
原创 世界模型详解(附代码)
这一思路大幅提升了学习效率,也为通向更强的人工智能打开了一扇门。2 世界模型价值在传统强化学习中,智能体需要与真实环境不断交互来学习策略。然而,这种方式不仅样本效率低,还存在高昂的时间与资源成本,甚至可能带来安全风险。相比之下,世界模型为智能体提供了一个虚拟环境,让它能够在内部“做梦”中完成训练,从而带来以下好处:
2025-09-28 17:32:15
1384
1
原创 破解大语言模型的无失真水印
作者提出了一种基于混合整数线性规划 (MILP)的攻击框架,不仅能在无扰动情况下恢复密钥,还能应对密钥偏移和样本损坏等复杂场景。该工作创新性地展示了即便是先进的无失真水印技术,也存在被破解的风险,从而对现有水印方法的稳健性提出了严峻挑战。
2025-09-27 09:54:56
850
原创 斯坦福大学推出无失真大模型水印技术
大语言模型在文本生成领域展现出强大的能力,但随之而来的挑战是如何可靠地识别和追踪由模型生成的内容。现有的logits水印方法(以红绿词表机制为代表)往往通过直接修改模型输出的概率分布来嵌入水印,这不可避免地会带来输出失真,甚至影响生成质量。针对这一问题,斯坦福大学计算机科学系在论文Robust Distortion-free Watermarks for Language Models中提出了一种大模型无失真水印方法。该方法的核心思想是不改变语言模型的原始分布,而是用共享的随机密钥序列替代普通采样中的随机数
2025-09-25 09:34:33
1043
原创 缓解大模型过度拒绝方法Self-CD解析
1.引言1.引言在近年来,大语言模型(LLMs)被广泛应用于各类智能任务,它们在自然语言理解与生成方面表现出了极强的能力。例如,在代码编程辅助、教育答疑、医疗健康咨询以及日常交互等场景中,LLMs展现出了接近甚至超越人类的表现。然而,伴随着对齐(alignment)的不断推进,模型在努力保证“安全性”的同时,也逐渐出现了一个严重的问题——过度拒绝(Overkill)。所谓过度拒绝,是指模型在面对含有敏感词汇的无害问题时,也会一刀切地拒绝回答,从而失去了原本应该具备的实用性。例如:当用户提问。
2025-09-23 09:30:59
1367
原创 基于红绿词表机制的大模型的水印方法
📌 1 引言随着 ChatGPT、Llama 等大模型的广泛应用,如何区分与成为一个重要问题。马里兰大学团队在论文中提出了一种,可以在不影响文本可读性的情况下,让AI输出的文本带上“隐形标记”,从而在检测阶段以统计方法验证其来源。📌 2 大模型水印的目的与应用场景大语言模型水印机制的根本目标是:在的前提下,通过在生成过程中嵌入隐形特征,使 AI 生成的内容能够被可靠识别和追溯。这不仅能区分与,还能够有效应对由大模型带来的社会风险。具体而言,水印技术具有以下应用价值:🔹 内容来源验证与风险防范。
2025-09-19 10:55:59
1340
原创 HiDDeN论文解读与代码实现
用于在CIFAR-10图像中嵌入和恢复二进制水印消息,并验证其在多种噪声条件下的鲁棒性,以下文件为main.py文件完整程序代码。要求:消息可以从图像中被接收方解码出来,但攻击者很难区分哪些图像包含信息。要求:即便图像经过压缩、裁剪、模糊等破坏,仍能正确恢复水印信息。:近似真实 JPEG 压缩的可微方法,保证训练过程中梯度可传播。将消息向量扩展成与图像相同空间维度的“消息体积”,与特征拼接。通过对抗训练提升含密图的隐蔽性,降低被检测概率。通过对抗训练,让生成的含密图更难被检测到。
2025-09-11 19:59:55
968
原创 OR-Bench数据集详细介绍
由 GPT-4-turbo、Llama-3-70B、Gemini-1.5-pro 组成的 ensemble moderator 审核,剔除真正有害的样本,保留安全但容易被拒答的数据。以下是利用 OR-Bench-80K 数据集中的样本测试多个本地大模型的拒答率,并将结果可视化为柱状图进行对比分析,完整代码可以通过该链接获取。随着大语言模型(LLMs)在各类任务中的广泛应用,模型的安全对齐(safety alignment)逐渐成为一个重要研究方向。,OR-Bench 为研究这一问题提供了可靠的测试基准。
2025-09-09 09:03:31
1095
原创 从数据分布的角度提高对抗样本的可迁移性
对抗迁移性攻击一般是先通过代理模型生成对抗样本,然后将该样本迁移到其它黑盒模型中进行攻击,对抗迁移性的根本原因目前仍有待于探究。以前的工作主要从模型的角度探讨原因,例如决策边界、模型架构和模型容量等。在该论文中,作者从数据分布的角度研究对抗样本的可迁移性,其核心思想是针对于无目标攻击,将图像移出其原始分布会使不同的模型很难对图像进行正确分类。针对于有目标攻击,则是将图像拖入目标分布会误导模型将图像分类为目标类。因此作者提出了一种通过操纵图像的分布来生成对抗样本的新方法。实验结果证明了所提出方法的有效性。
2022-12-08 18:43:50
3132
原创 policy gradient详解(附代码)
policy gradient是强化学习中一种基于概率策略的方法。智能体通过与环境的交互获得特定时刻的状态信息,并直接给出下一步要采取各种动作的概率,然后根据该状态动作的策略分布采取下一步的行动,所以每种动作都有可能被选中,只是选中的概率性不同。智能体直接学习状态动作的策略分布,在强化学习的训练中,用神经网络来表示状态动作分布,给一个状态,就会输出该状态下的动作分布。强化学习算法直接对策略进行优化,使指定的策略能够获得最大的奖励。 考虑一个随机参数化的策略πθ\pi_\thetaπθ,强化学习主要目标是
2022-11-05 13:19:21
3400
原创 Sigmoid类神经网络的鲁棒性验证
该论文是关于神经网络鲁棒性理论类的文章。类似有Sigmoid激活函数的神经网络,由于其非线性,使得在进行神经网络鲁棒验证评估时,不可避免地会引入了不精确性。当前的一个研究方向是寻找更严格的近似值以获得更精确的鲁棒验证结果。然而,现有的紧密度定义是启发式的,缺乏理论基础。在该论文中,作者对现有的神经元紧密度表征进行了全面的实证分析,并揭示它们仅在特定的神经网络上具有优势。另外,作者基于神经网络紧密度的概念重新提出了一个统一的神经网络紧密度定义,并表明计算神经网络紧密度是一个复杂的非凸优化问题。为了能够更好地
2022-10-24 17:48:17
3461
1
原创 通过随机平滑验证对抗鲁棒性
当前很多研究工作提出了用于训练分类器的启发式算法,其目的是使分类器对对抗扰动具有一定鲁棒性。然而,这些启发式算法中的大多数算法缺乏相应的理论基础做支撑。随之而来出现了关于分类器可证鲁棒性的一系列理论研究工作,即在任何输入样本点的预测在围绕在该样本点的某个集合内是一个可验证的常数。在该文中,作者首次提供了随机平滑的严格鲁棒性保证证明,论文分析表明,使用高斯噪声进行平滑会在 ℓ2\ell_2ℓ2范数下产生可证明的鲁棒性,而且论文中验证神经网络鲁棒性的方法可以扩展到像ImageNet等足够大的神经网络中。该论
2022-09-03 17:41:42
3713
4
原创 统计假设检验
这里的“接受”或“拒绝”一个假设的行为,只是反映了当事者在给定样本之下对该命题所采取的一种态度,一种行为,而不是从逻辑上或理论上“证明”该命题正确与否。由于不能同时控制一个检验的犯第一类,第二类错误的概率,在此背景下,会采取折中的方案,通常的作法是仅限制犯第一类错误的概率,这就是费希尔的显著性检验,显著性水平。由于样本是随机的,故当应用某种检验做判断时,可能做出正确的判断,也可能做出错误判断。做出接受或拒绝的决策。就是一个检验统计量,因为要检验的假设是正态总体均值,在方差已知的场合,样本均值。...
2022-08-26 21:29:51
901
原创 基于梯度的黑盒迁移对抗攻击(附代码)
黑盒迁移攻击是对抗攻击中非常热门的一个研究方向,基于动量梯度的方法又是黑盒迁移攻击的一个主流方向。当前大部分研究主要通过在数据样本的尺寸,分布,规模,时序等方面来丰富梯度的多样性,使得生成的对抗样本在迁移到其它的模型攻击时,能够有更高的攻击成功率。本文会介绍最近几年有代表性的黑盒迁移攻击的论文,这些论文的方法经常会被当成论文比较的baseline。我对论文中涉及到一些数学结论进行补充证明,大部分论文中给出的源码是tensorflow的,我又根据论文的算法流程图用pytorch对论文的核心方法重新编程了一下
2022-08-06 16:27:47
4746
1
原创 torch.autograd.grad求二阶导数
表示是否需要将梯度将会加入到计算图中,当计算高阶导数或者其他计算时会将其设置为需要设置为。:表示是否需要将计算图释放掉,当计算二阶导数时需要设置为。:表示是否只返回输入的梯度,而不返回其他叶子节点的梯度。以下给出了具体的二阶导数解析解的数学实例。求偏导,然后相加求平均得到损失函数。时,根据数学解析解得到的二阶导数为。:表示“向量-雅克比矩阵”的向量。,对应的代码运行的实验结果也为。的元素求平均可以得到损失函数。:表示微分函数的输出。:表示微分函数的输入。......
2022-08-03 10:14:11
3398
原创 基于共轭梯度法的对抗攻击
深度学习模型容易受到对抗样本的攻击,尽管基于最速下降的现有方法已经取得了很高的攻击成功率,但优化的病态问题偶尔会降低它们的攻击性能。实验结果表明,对于大多数模型,论文提出的方法比现有的SOTA算法能够以更少的迭代次数找到更优的对抗样本,而且论文所提出方法的更多样化的搜索显著提高了对抗攻击的成功率。此外,为了研究投影对APGD的影响,作者还计算了两个搜索点之间行进距离的比率,它表示投影浪费的更新距离量。论文中提供了算法源码,其代码有些复杂,以下代码是根据论文的核心算法重新编写的较为简单的核心代码。......
2022-07-22 09:55:50
1164
原创 Imagenet预训练模型验证集分类
Imagenet验证集数据大小为6.5G,共有1000类的50000张图片。本文主要是对这1000类的50000张图片的标签信息进行处理分类汇总成一个csv表格,便于实验读入信息需要。Imagenet验证集标签整理的文件和代码链接如下所示: 待处理的文件有两个,一个是imagenet_img_info.txt文件,它包含了50000张图片与100个类别的对应关系。另一个文件是imagenet_img_info.txt文件,它包含了Imagenet数据集中1000个类别详细信息。最终输出的用于实验的
2022-07-11 15:09:50
5379
原创 Diffusion模型详解
在上一篇《基于流的深度生成模型》中详解介绍了有关流的生成模型理论和方法。目前为止,基于GAN生成模型,基于VAE的生成模型,以及基于flow的生成模型它们都可以生成较高质量的样本,但每种方法都有其局限性。GAN在对抗训练过程中会出现模式崩塌和训练不稳定的问题;VAE则严重依赖于目标损失函数;流模型则必须使用专门的框架来构建可逆变换。本文主要介绍关于扩散模型,其灵感来自于非平衡热力学。它们定义了扩散步骤的马尔可夫链,将随机噪声缓慢地添加到数据中,然后学习逆向扩散过程以从噪声中构造所需的数据样本。 与VAE或
2022-07-04 10:22:21
7829
1
原创 元代理模型可迁移对抗攻击
该论文是关于黑盒攻击可迁移性的文章。在当前大量的研究中,许多方法直接攻击代理模型并获得的可迁移性的对抗样本来欺骗目标模型,但由于代理模型和目标模型之间的不匹配,使得它们的攻击效果受到局限。在该论文中,作者从一个新颖的角度解决了这个问题,通过训练一个元代理模型(MSM),以便对这个模型的攻击可以更容易地迁移到到其它模型中去。该方法的目标函数在数学上被表述为一个双层优化问题,为了能够让训练过程梯度有效,作者提出了新的梯度更新过程,并在理论上给出了证明。实验结果表明,通过攻击元代理模型,可以获得更强的可迁移性的
2022-06-29 15:25:59
1601
原创 基于流的深度生成模型
到目前为止,两种生成模型GAN\mathrm{GAN}GAN和VAE\mathrm{VAE}VAE并不能准确地从真实数据x∈D{\bf{x}}\in \mathcal{D}x∈D中学习出概率分布p(x)p({\bf{x}})p(x)。以隐变量的生成模型为例,在计算积分p(x)=∫p(x∣z)dzp({\bf{x}})=\int p({\bf{x}}|{\bf{z}})d{\bf{z}}p(x)=∫p(x∣z)dz时,需要遍历所有的隐变量z{\bf{z}}z的取值这是非常困难,且不切实际的。基于Flow\m
2022-06-27 15:15:54
2076
原创 最优传输理论下对抗攻击可解释性
该论文是关于对抗攻击理论性的文章,作者为对抗攻击提供了非常可靠的解释性。当前最优传输理论是深度学习理论中非常热门一个的方向,作者从最优传输理论的角度去分析对抗攻击的现象。当学习具有最优传输问题对偶损失的1-Lipschitz1\text{-}\mathrm{Lipschitz}1-Lipschitz神经网络时,模型的梯度既是最优传输方案的方向,也是最接近对抗样本的方向。沿着梯度移动到决策边界不再是一种对抗攻击,而是一种反事实的解释,即可以看作明确地从一个类传输到另一个类。通过对可解释AI\mathrm{A
2022-06-22 08:33:52
1069
原创 Fisher信息量检测对抗样本代码详解
1 引言 在上一篇《Fisher信息量在对抗样本中的应用》中详尽地阐述了Fisher信息量在对抗攻击,防御,以及检测中的应用,并解析了三篇具有代表性的论文。Fisher信息量是可以用来去挖掘深度学习模型对抗行为的深层原因的非常好用一个数学工具。本文主要基于用Fisher信息量去检测对抗样本的一篇论文《Inspecting adversarial examples using the Fisher information》的代码进行深度解析,该论文提出了三个指标对对抗样本进行检测分别是Fisher信息矩阵迹
2022-06-19 18:01:34
973
1
原创 黑盒属性:所见即所分类
该论文是关于显著图分割和定位的论文。目前深度神经网络可解释性的一个直观的方法就是深度模型输出各个预测类别的显著图。大多数现有的方法要么使用激活和梯度,要么通过反复干扰输入来找到这种属性。在该论文中,作者通过训练另一个深度神经网络解释器来生产显著图,以预测预先训练好的黑盒分类器的属性,只显示图像中与分类器相关的部分,并过滤掉其它无关的部分。论文中定性和定量的实验结果表明,与其他方法生成的显著图相比,论文中提出的方法生成了更清晰和更精确的显著图边界。论文链接: https://arxiv.org/abs/2
2022-06-18 08:39:41
945
原创 Push & Pull:注意力攻击生成可迁移对抗样本
该论文是关于对抗样本可迁移性的文章。在该论文中,作者提出了一种可迁移注意力攻击(TAA\mathrm{TAA}TAA),该方法基于关注图像特定区域和特征对干净图像进行对抗扰动。另外,作者还将三元组损失函数引入到对抗样本的生成策略中,在攻击过程中干净图像被迭代地“推”离源类,同时随着攻击进行“拉”近到目标类,以实现对抗样本较高的可迁移性。实验结果表明,该方法不仅提高了对抗样本的可迁移性,而且保持了较高的白盒目标攻击成功率。论文链接: https://ieeexplore.ieee.org/docume
2022-06-15 08:02:21
1073
2
原创 自适应步长快速对抗训练
该论文是关于对抗训练理论分析性的文章,目前对抗训练及其变体已被证明是抵御对抗攻击的最有效防御手段,但对抗训练的过程极其缓慢使其难以扩展到像ImageNet这样的大型数据集上,而且在对抗训练的过程中经常会出现模型过拟合现象。在该论文中,作者从训练样本的角度研究了这一现象,研究表明模型过拟合现象是依赖于训练样本,并且具有较大梯度范数的训练样本更有可能导致灾难性过拟合。因此,作者提出了一种简单但有效的方法,即自适应步长对抗训练 (ATAS)。 ATAS学习调整与其梯度范数成反比的训练样本自适应步长。...
2022-06-12 14:53:44
1690
原创 利用特征可分性增强对抗训练
1 引言2 预备知识3 论文方法minfθmax∥x′−x∥p≤ϵL(fθ(x′),y)\min\limits_{f_\theta}\max\limits_{\|\bf{x}^{\prime}-\bf{x}\|_p\le \epsilon}\mathcal{L}(f_\theta({\bf{x}}^{\prime}),y)fθmin∥x′−x∥p≤ϵmaxL(fθ(x′),y)LFS(h,ATG,xi)=∑(x,xi′)∈Eca+(i)s(h(xi),h(xi′))+∑(x,xj)∈E
2022-06-01 19:41:39
1098
原创 ICLR2022:基于积分梯度的迁移对抗攻击
IGi(f,x,r)=(xi−ri)×∫η=01∂f(r+η×(x−r))∂xidη\mathrm{IG}_i(f,\boldsymbol{x},\boldsymbol{r})=(x_i-r_i)\times\int_{\eta=0}^1\frac{\partial f(\boldsymbol{r}+\eta\times(\boldsymbol{x}-\boldsymbol{r}))}{\partial x_i}d\etaIGi(f,x,r)=(xi−ri)×∫η=01∂xi∂f(r+η×(x−r
2022-05-30 20:44:17
1350
3
原创 深度强化学习中的对抗攻击和防御
1 引言2 预备知识2.1 对抗攻击maxδL(fθ(x+δ),y)s.t. δ∈G\max\limits_{\delta} L(f_\theta(x+\delta),y)\quad \mathrm{s.t.}\text{ }\delta\in \mathcal{G}δmaxL(fθ(x+δ),y)s.t. δ∈Gxt+1=Proj∞x,ϵ(xt+α⋅sgn(∇L(fθ(xt),y)))x_{t+1}=\mathrm{Proj}^{x,\epsilon}_{\infty}
2022-05-23 20:07:45
1962
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅