1.背景
在图像中加入一些人眼不可见的扰动会造成深度学习图像分类器的分类失误,在正常样本中加入扰动后所生成的样本被称为对抗样本。文本领域也有类似对抗样本的生成,具体是通过单词的误拼写、同义词的替换来实现的。这样的对抗样本可用于图像、文本分类器的攻击,对于扰动大小程度的衡量,也就表征了对于分类器的攻击强度。
2.要研究的问题
如何衡量在图像、文本中加入扰动的大小程度?
对于连续的图像数据而言,对抗样本与原样本的差距是比较容易衡量的。而对于离散的文本数据而言,这种差距是不太容易衡量的。
3.解决方法
- 图像数据
图像数据中对抗样本和原样本的差距可通过下式来衡量:
- 文本数据
因为文本数据是离散的,所以不能直接使用上述度量方式。常使用的方法有如下几种:
欧氏距离(Euclidean Distance): 将离散的单词数据转移到单词embedding空间,计算两个单词embedding之间的距离。如下式所示:
余弦距离(Cosine Distance): 同样是在单词的embedding空间,衡量两个单词角度的近似情况,角度越小,两个单词距离越近。如下式所示:
Jaccard相似系数(Jaccard Similarity Coefficient): 对于两个单词的集合(一个句子或者一个段落),求两个集合中单词的交集比两个集合中单词的并集,该值越接近1,两者相似度越大。如下式所示:
单词移动距离(Word Movers Distance, WMD): 该指标提出的初衷是将两个单词embedding之间的距离拓展到文档之间的距离。具体做法是去除句子中的停用词,只保留下有实际意义的单词,并使用单词embedding向量之间的欧氏距离判断从一个文档中的单词转换到另一个文档中单词所需的距离。
编辑距离(Edit Distance): 是度量一个字符串到另一个字符串需要的最小修改操作数目的指标。被统计的修改操作有字符的插入、删除、替换操作。
参考文献
- Wang W, Wang L, Wang R, et al. Towards a Robust Deep Neural Network in Texts: A Survey[J]. arXiv: Computation and Language, 2019.