【论文学习】graph backdoor论文学习

最新推荐文章于 2023-03-05 23:44:42 发布

精致又勤奋的码农

最新推荐文章于 2023-03-05 23:44:42 发布

阅读量1.5k

点赞数 4

分类专栏：网络安全论文学习文章标签：迁移学习深度学习知识图谱安全

本文链接：https://blog.csdn.net/qq_38391210/article/details/119990343

版权

本文深入探讨了GTA（Graph Trojan Attack），一种针对图神经网络的后门攻击方法。GTA利用bi-level优化、mixing function和trigger generation策略，实现了对图级和节点级任务的攻击，具有高成功率且对下游模型未知。实验表明，GTA在图分类和节点分类任务上均表现出强大的攻击能力，同时提出了相应的防御措施。

摘要由CSDN通过智能技术生成

摘要

本文提出了GTA攻击方法，这是在GNN上的第一个后门攻击（backdoor attack）。GTA有如下几个重要的方面：1）graph-oriented：将trigger定义成一个子图，这个子图包括了两个部分，拓扑结构和结点的特征信息。2）input-tailored：对每一个图都会得到一个trigger，通过对攻击有效性（attack effectiveness）和攻击规避性（保证正常图还是被正确分类，注入了trigger的图被错误分类）都进行优化得到trigger。3）下游模型不可知：攻击者不需要知道下游模型的信息，也不需要知道下游模型的fine-tune策略。攻击过程不需要依赖下游模型最后的预测标签，而是对中间得到的图表示进行优化。4）attack-extensible:可以用于节点分类也可以用于图分类任务。实验部分采用了很多的benchmark数据集和SOTA模型。最后提出了相应的防御方法，并且指出了几个有前途的研究方向。

Introduction

预训练模型很容易被后门攻击。攻击者的目的是得到一个木马模型，这个木马模型在输入了特定的注入了trigger的数据后会分类错误，但是在正常数据输入进去时可以保证分类正确。GNN在很多领域有应用：恶意检测（malware detection），欺诈检测（fraud detection），药物发现（drug discover），内存取证。很多任务的带标签图太少或者是训练成本太高从而使得预训练开始盛行。
作者最后得到了如下几个结论：1）对图分类任务的攻击可以获得超过91.4%的成功率，而对节点分类的攻击可以获得69.1%的成功率。2）那种迁移性极强的GNN模型更容易被攻击，脆弱性更强，可以获得96.4%的攻击成功率。最后还对input-space攻击进行研究，先转成图数据再做后面的操作。3）最后提出了GTA的防御方案。

Background

GNN模型的输入是结点之间的邻接矩阵和结点的特征矩阵。首先通过对某个结点周围的结点的特征进行聚合最后得到每个结点的嵌入表示矩阵，最后通过readout函数得到整个图的嵌入表示。

GTA攻击

其实就是包括两个部分，attack effectiveness和attack evasiveness。
在这里插入图片描述
如上式所示，上面是effectiveness，使得注入了trigger的输入被分类到特定类别，下面是evasiveness，使得模型对正常样本的预测依旧正确。
面临如下挑战：1）攻击者无法接触到下游模型，所以不能直接优化上面的第一个式子。2）gt和θ是相互依赖的，所以每次优化gt之前需要优化得到θ。3）gt的搜索空间太大。4）每个图都不一样，应该设置不同的trigger。
针对上面的挑战，得到如下解决方案：1）直接基于中间得到的图特征表示做优化，而不是基于最后的预测结果。2）gt和θ做交错优化。3）使用mixing function这个替代方法，来找到距离gt最近的g作为trigger。4）每个图G都会得到一个特定的gt。

（1）bi-level优化

在这里插入图片描述首先对式4进行优化，使得添加了后门和未添加后门的模型对正常样本的预测正确，此时是固定gt，优化得到θ。迭代了 $n_{io}$ 次后再执行下面式3的优化。这里的 $n_{io}$

最低0.47元/天解锁文章

精致又勤奋的码农

关注

4
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
【论文学习】graph backdoor论文学习

摘要本文提出了GTA攻击方法，这是在GNN上的第一个后门攻击（backdoor attack）。GTA有如下几个重要的方面：1）graph-oriented：将trigger定义成一个子图，这个子图包括了两个部分，拓扑结构和结点的特征信息。2）input-tailored：对每一个图都会得到一个trigger，通过对攻击有效性（attack effectiveness）和攻击规避性（保证正常图还是被正确分类，注入了trigger的图被错误分类）都进行优化得到trigger。3）下游模型不可知：攻击者不需要
复制链接

扫一扫

专栏目录