DeepFool笔记：对原理的理解和公式推导（多分类）

最新推荐文章于 2022-10-11 14:32:01 发布

Niatruc

最新推荐文章于 2022-10-11 14:32:01 发布

阅读量925

点赞数 10

分类专栏：阅读笔记文章标签：深度学习分类算法机器学习

本文链接：https://blog.csdn.net/Niatruc/article/details/115621096

版权

阅读笔记专栏收录该内容

7 篇文章 1 订阅

订阅专栏

对多分类的理解

在多分类器中，输出向量由输入x属于各个分类的概率组成。若输出的向量中某个类对应的概率高，则判定输入的样本属于该类。
将每个类别 $C_k$ 对应一个决策超平面 $c_k$ ，平面两端分别表示“属于该分类”( $C_k$ )和“不属于该分类”( $\overline{C_k}$ )。假设一个三分类器（如图， $C_4$ 先忽视），于是对于 $C_3$ 分类区域，它是 $\overline{c_1}$ 、 $\overline{c_2}$ 和 $c_3$ 的交集。其他分类区域类似。
在这里插入图片描述

扰动仿射多分类器（即线性多分类器）

DeepFool对多分类器的扰动目标仅是让分类器对对抗样本的预测不为原分类。它求的是达到这个目标的最小扰动，原文是让样本靠向某个类，但不确保样本加上最小扰动后对它预测得到的就是这个类。
在这里插入图片描述

推导：扰动向量的求解公式

论文中对多分类器的扰动向量的求取如下式。 $\hat{l}$ 可视为 $x_0$ 被扰动之后，其靠向的类对应的决策超平面， $\hat{k}$ 则是 $x_0$ 原所属类别。
在这里插入图片描述
这个式子怎么得来的，原文没有细说。下面推导。
论文原图是 $x_0$ 在 $C_4$ 类区域内（中间围成的三角形），接着通过扰动让 $x_0$ 归类为 $C_3$ 。 $c_3$ 对应上式的 $\hat{l}$ ， $c_1$ 对应 $\hat{k}$ 。为方便画图和理解，这里换个说法： $x_0$ 原属 $C_1$ ，需通过扰动使其归属 $C_3$ 。如图， $c_1$ 和 $c_3$ 的交点为 $x_1$ .直观上看， $x_0$ 从 $C_1$ 到 $C_3$ 的最短路径即是向量 $\overrightarrow{x_0x_1}$ ，因此求最小扰动向量就是求向量： $\vec{x_1}-\vec{x_0}$ 。
在这里插入图片描述
给这个向量乘个 $w_3-w_1$ ，于是有：
$w_3-w_1)*(x_1-x_0)$
$w_3*x_1-w_1*x_1)-(w_3*x_0-w_1*x_0)$
$f_3(x_1)-b_3)-(f_1(x_1)-b_1))-((f_3(x_0)-b_3)-(f_1(x_0)-b_1))$

（因为决策超平面上的点 $x_1$ 对应的 $f$ 值为0，所以：）

$f_3(x_0)-f_1(x_0))$
因为 $w_3-w_1$ 是个向量，不能直接放到右边除 $f_3(x_0)-f_1(x_0))$ ，所以先把 $w_3-w_1$ 搞成单位向量，之后两边乘单位向量就可了：
$\frac{(w_3-w_1)}{\Vert w_3-w_1 \Vert_2}*(x_1-x_0)=\frac{-(f_3(x_0)-f_1(x_0))}{\Vert w_3-w_1 \Vert_2}$
↓

$(x_1-x_0)=\frac{-(f_3(x_0)-f_1(x_0))}{\Vert w_3-w_1 \Vert_2} * \frac{(w_3-w_1)}{\Vert w_3-w_1 \Vert_2}$
右式的负号是前面向量相减时引入的方向，其实在前面的 $w_3-w_1)*(x_1-x_0)$ 后这个负号就没意义了，所以取 $f_3(x_0)-f_1(x_0))$ 的绝对值即可。于是得到论文中的公式（9）。

求对非线性多分类器的最小扰动

同上一篇讲DeepFool针对二分类情况的文章，这里还是只考虑样本的某一个特征的维度。如下图。横轴对应输入的特征x，纵轴对应分类概率，三条曲线 $c_1$ 、 $c_2$ 、 $c_3$ 对应三个分类的概率函数。 $C_1$ 、 $C_2$ 、 $C_3$ 三个类别各对应一个区间。现有属于 $C_2$ 类的样本 $x_0$ ，要将它移到 $C_3$ 分类，最短距离即是向量 $\overrightarrow{x_0x_1}$ （ $x_1$ 是 $c_2$ 、 $c_3$ 在x轴上的交点）。现在只能得到 $x_0$ 处各概率函数的梯度，那么怎么求 $x_1$ ？
结论是，在 $x_0$ 处作 $c_2$ 、 $c_3$ 的切线，它们相交于点 $x^{'}$ ，DeepFool即用该点作为 $x_1$ 的近似。下面证明。
求向量 $\overrightarrow{x_0x'}$ 也即是求 $\vec{x_1}-\vec{x_0}$ ，因此同上一节提到的做法，给这个向量乘个 $w_3-w_2$ （ $w_3$ 、 $w_2$ 分别是两条切线的法向量，也就是梯度），便得到 $f_3(x')-b_3)-(f_2(x')-b_2))-((f_3(x_0)-b_3)-(f_2(x_0)-b_2))$ 。
消掉 $b_2$ 和 $b_3$ ，又因为 $x^{'}$ 是两条切线的交点，所以 $f_3(x')$ 和 $f_2(x')$ 相等，再消，最后得

$w_3-w_1)*(x_1-x_0)=-(f_3(x_0)-f_2(x_0))$ 。
最后也得到公式（9）。

在这里插入图片描述

Niatruc

关注

10
点赞
踩
7

收藏

觉得还不错? 一键收藏
10
评论
DeepFool笔记：对原理的理解和公式推导（多分类）

对多分类的理解在多分类器中，输出向量由输入x属于各个分类的概率组成。若输出的向量中某个类对应的概率高，则判定输入的样本属于该类。将每个类别CkC_kCk对应一个决策超平面ckc_kck，平面两端分别表示“属于该分类”(CkC_kCk)和“不属于该分类”(Ck‾\overline{C_k}Ck)。假设一个三分类器（如图，C4C_4C4先忽视），于是对于C3C_3C3分类区域，它是c1‾\overline{c_1}c1、c2‾\overline{c_2}c2和c3c_3c3的交集。
复制链接

扫一扫

专栏目录