论文研读|TextBack: Watermarking Text Classifiers using Backdooring

在这里插入图片描述


论文信息

论文名称:TextBack: Watermarking Text Classifiers using Backdooring
作者:Nandish Chattopadhyay, et al. Nanyang Technological University Singapore
发表年份:2022
发表会议:DSD
开源代码:无

文章简介

本文提出一种使用黑盒水印方式保护文本分类模型的方法。通过构建触发集,将其混入干净训练数据微调预训练模型,嵌入水印。(不使用基于FromScratch的方法从头开始训练模型是为了减少不必要的计算资源浪费)

研究动机

现有的模型水印及其攻击方法主要围绕CV领域展开[5,13],而对于自然语言处理领域的模型保护仍处于起步阶段。基于此,本文借鉴后门攻击的思想,提出一种保护文本分类模型的黑盒水印方法。

研究方法

水印生成

本文介绍了两种触发集构造方法:(1)训练数据内选取触发样本(Intra-domain);(2)训练数据外选取触发样本(Inter-domain)。对选取出的触发集样本,保持文本不变,只修改标签为水印标签,实现了clean-text的触发集构建。

水印嵌入

首先使用干净训练数据训练模型得到预训练模型,然后将使用上述方式构建好的触发集其混入干净训练数据微调预训练模型,嵌入水印。 Figure 3 和 Figure 4 分别展示了通过 Intra-domain 和 Inter-domain 构造触发集并进行水印嵌入的流程。

在这里插入图片描述
在这里插入图片描述

版权验证

将触发集中的样本输入待检测模型中,若模型的预测准确率超过一定阈值,则认为该模型含有水印。

实验结果

本文在 IMDB 和 Twitter 两个数据集上进行了测试。选取 vanilla RNN 和 LSTM 作为测试模型。文章首先给出了不含水印模型在原始测试集和触发集上的测试性能,说明不含水印模型无法达到版权验证的效目的。
在这里插入图片描述
5在这里插入图片描述

保真度 & 有效性

在这里插入图片描述
在这里插入图片描述

消融实验

本实验验证了在微调阶段,clean samples 的数量对于模型预测结果的影响,可以看到,微调时必须混入足够数量的clean samples,才能保证原始任务的精度。

在这里插入图片描述
在这里插入图片描述

方法评估

这个方法是把[13]中的方法CV迁移到NLP中,文章出自同一个团队,图也大差不差……而且触发集的构造方式也没有多少新意,和这篇文章中clean-image+label change的思路类似,只不过这里是clean-text+label change;此外,internal & external 借鉴这篇文章中触发集的构造思路,分别从训练数据内外选取触发样本进行修改。而且本文没有展示鲁棒性实验,不清楚这种方法对于剪枝和微调等攻击手段的鲁棒性。

相关文献

[5] H. Chen, B. D. Rouhani, and F. Koushanfar, “Blackmarks: Blackbox multibit watermarking for deep neural networks,” arXiv preprint arXiv:1904.00344, 2019.
[6] H. Chen, B. D. Rohani, and F. Koushanfar, “Deepmarks: a digital fingerprinting framework for deep neural networks,” ICMR, 2019.
[7] B. D. Rouhani, H. Chen, and F. Koushanfar, “Deepsigns: A generic watermarking framework for protecting the ownership of deep learning models.” ASPLOS, 2019.
[8] S. Szyller, B. G. Atli, S. Marchal, and N. Asokan, “Dawn: Dynamic adversarial watermarking of neural networks,” ACM Multimedia, 2021.
[9] H. Chen, C. Fu, J. Zhao, and F. Koushanfar, “Deepinspect: A black-box trojan detection and mitigation framework for deep neural networks.” in IJCAI, 2019, pp. 4658–4664.
[10] W. Guo, L. Wang, X. Xing, M. Du, and D. Song, “Tabor: A highly accurate approach to inspecting and restoring trojan backdoors in ai systems,” arXiv preprint arXiv:1908.01763, 2019.
[11] N. Chattopadhyay, C. S. Y. Viroy, and A. Chattopadhyay, “Re-markable: Stealing watermarked neural networks through synthesis,” in International Conference on Security, Privacy, and Applied Cryptography
Engineering. Springer, 2020, pp. 46–65.
[12] Y. Adi, C. Baum, M. Cisse, B. Pinkas, and J. Keshet, “Turning your weakness into a strength: Watermarking deep neural networks by backdooring,” USENIX, 2018.
[13] N. Chattopadhyay and A. Chattopadhyay, “Rowback: Robust watermarking for neural networks using backdoors,” in 2021 20th IEEE International Conference on Machine Learning and Applications (ICMLA). IEEE, 2021, pp. 1728–1735.

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

_Meilinger_

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值