求两个点的欧氏距离_图像、文本对抗样本中的距离度量

1.背景

在图像中加入一些人眼不可见的扰动会造成深度学习图像分类器的分类失误,在正常样本中加入扰动后所生成的样本被称为对抗样本。文本领域也有类似对抗样本的生成,具体是通过单词的误拼写、同义词的替换来实现的。这样的对抗样本可用于图像、文本分类器的攻击,对于扰动大小程度的衡量,也就表征了对于分类器的攻击强度。

2.要研究的问题

如何衡量在图像、文本中加入扰动的大小程度?

对于连续的图像数据而言,对抗样本与原样本的差距是比较容易衡量的。而对于离散的文本数据而言,这种差距是不太容易衡量的。

3.解决方法

  • 图像数据

图像数据中对抗样本和原样本的差距可通过下式来衡量:

efff2343866f5d8cbec9e636cfe97b2e.png
c表示整张图像,c'是被扰动后的图像,p是范数。式中对每个像素分别进行计算。

距离(
Distance)
时,式子的物理意义是统计共有多少个像素发生了变化。可变形为下式:

fee47db3c9507764c5a9d25cfc575b5f.png

距离(
Distance)
时,式子的物理意义是统计两个点之间的欧氏距离,两个点代表了两张图像。

距离(
Distance)
时,式子的物理意义是图像中所有像素改变的最大值。可变形为下式:

843d6834089a190fc152741a9d15b571.png
  • 文本数据

因为文本数据是离散的,所以不能直接使用上述度量方式。常使用的方法有如下几种:

欧氏距离(Euclidean Distance): 将离散的单词数据转移到单词embedding空间,计算两个单词embedding之间的距离。如下式所示:

a920a611c5d45031a2008f8a72339e6a.png

余弦距离(Cosine Distance): 同样是在单词的embedding空间,衡量两个单词角度的近似情况,角度越小,两个单词距离越近。如下式所示:

f79f899dcfb4b47073197a4080a27e57.png

Jaccard相似系数(Jaccard Similarity Coefficient): 对于两个单词的集合(一个句子或者一个段落),求两个集合中单词的交集比两个集合中单词的并集,该值越接近1,两者相似度越大。如下式所示:

66addb019fd8c56307f0e366ebc1b799.png

单词移动距离(Word Movers Distance, WMD): 该指标提出的初衷是将两个单词embedding之间的距离拓展到文档之间的距离。具体做法是去除句子中的停用词,只保留下有实际意义的单词,并使用单词embedding向量之间的欧氏距离判断从一个文档中的单词转换到另一个文档中单词所需的距离。

编辑距离(Edit Distance): 是度量一个字符串到另一个字符串需要的最小修改操作数目的指标。被统计的修改操作有字符的插入、删除、替换操作。

参考文献

  1. Wang W, Wang L, Wang R, et al. Towards a Robust Deep Neural Network in Texts: A Survey[J]. arXiv: Computation and Language, 2019.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值