（攻防角度）中国人工智能系列白皮书--大模型技术（2023版）之（2.1 Transformer架构）

本文链接：https://blog.csdn.net/weixin_42688573/article/details/138519286

一、对抗性攻击

导致模型在特定输入上产生错误的输出，而不影响其它输入的表现。

梯度基方法、优化基方法。²

通过修改训练数据，使得模型学到错误的信息，从而在实际使用中表现异常。

在文本分类任务中注入有偏见的文本，导致模型在某些类别上预测偏差。

复制或逼近商业模型的功能，以绕过使用费用或者侵犯知识产权。

黑盒攻击，使用模型输出进行反向训练。⁴

通过分析模型的输出，推测模型的结构、参数或训练数据。⁵

使用机器学习技术分析输入输出数据的统计关系。

由于FGSM是PGD的迭代版本，从原来单步方法迭代为多步方法，只需要在合理范围之内即可。
Idea：找到一些样本生成算法进行迭代。 ↩︎
梯度基方法更直接，直接利用损失函数的梯度信息进行生成对抗性样本。
而优化基方法更精细，需要先分析损失函数的值什么情况下最容易变大，然后再针对性的生成对抗性样本。 ↩︎
有可能泄露设计模型参数或架构的敏感信息。 ↩︎
有标记的训练集的有监督训练。 ↩︎
模型逆向工程主要目的是为了深入了解模型内部架构参数等具体细节，而模型窃取攻击仅仅为了复制一个模型用于挣钱或者省钱，更粗暴无脑。 ↩︎