求两个点的欧氏距离_图像、文本对抗样本中的距离度量

最新推荐文章于 2021-10-17 17:48:36 发布

weixin_39738251

最新推荐文章于 2021-10-17 17:48:36 发布

阅读量385

点赞数

文章标签：求两个点的欧氏距离

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39738251/article/details/111693787

版权

1.背景

在图像中加入一些人眼不可见的扰动会造成深度学习图像分类器的分类失误，在正常样本中加入扰动后所生成的样本被称为对抗样本。文本领域也有类似对抗样本的生成，具体是通过单词的误拼写、同义词的替换来实现的。这样的对抗样本可用于图像、文本分类器的攻击，对于扰动大小程度的衡量，也就表征了对于分类器的攻击强度。

2.要研究的问题

如何衡量在图像、文本中加入扰动的大小程度？

对于连续的图像数据而言，对抗样本与原样本的差距是比较容易衡量的。而对于离散的文本数据而言，这种差距是不太容易衡量的。

3.解决方法

图像数据

图像数据中对抗样本和原样本的差距可通过下式来衡量：

c表示整张图像，c&#39;是被扰动后的图像，p是范数。式中对每个像素分别进行计算。

距离(

Distance)

当

时，式子的物理意义是统计共有多少个像素发生了变化。可变形为下式：

距离(

Distance) 当

时，式子的物理意义是统计两个点之间的欧氏距离，两个点代表了两张图像。

距离(

Distance) 当

时，式子的物理意义是图像中所有像素改变的最大值。可变形为下式：

文本数据

因为文本数据是离散的，所以不能直接使用上述度量方式。常使用的方法有如下几种：

欧氏距离(Euclidean Distance): 将离散的单词数据转移到单词embedding空间，计算两个单词embedding之间的距离。如下式所示：

余弦距离(Cosine Distance): 同样是在单词的embedding空间，衡量两个单词角度的近似情况，角度越小，两个单词距离越近。如下式所示：

Jaccard相似系数(Jaccard Similarity Coefficient): 对于两个单词的集合(一个句子或者一个段落)，求两个集合中单词的交集比两个集合中单词的并集，该值越接近1，两者相似度越大。如下式所示：

单词移动距离(Word Movers Distance, WMD): 该指标提出的初衷是将两个单词embedding之间的距离拓展到文档之间的距离。具体做法是去除句子中的停用词，只保留下有实际意义的单词，并使用单词embedding向量之间的欧氏距离判断从一个文档中的单词转换到另一个文档中单词所需的距离。

编辑距离(Edit Distance): 是度量一个字符串到另一个字符串需要的最小修改操作数目的指标。被统计的修改操作有字符的插入、删除、替换操作。

参考文献

Wang W, Wang L, Wang R, et al. Towards a Robust Deep Neural Network in Texts: A Survey[J]. arXiv: Computation and Language, 2019.

weixin_39738251

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。