[半监督学习] Deep Co-Training for Semi-Supervised Image Recognition

码侯烧酒

已于 2022-02-19 17:16:55 修改

阅读量3.8k

点赞数 6

分类专栏：论文文章标签：深度学习计算机视觉机器学习人工智能

于 2022-02-19 17:16:33 首次发布

本文链接：https://blog.csdn.net/by6671715/article/details/123012043

版权

论文专栏收录该内容

27 篇文章 15 订阅

订阅专栏

在监督学习领域, 深度神经网络在许多任务中已经取得了先进水平, 因此将其引入半监督学习, 并结合 Co-Training 思想, 用于处理半监督图像分类问题.

论文地址: Deep Co-Training for Semi-SupervisedImage Recognition
代码地址: https://github.com/AlanChou/Deep-Co-Training-for-Semi-Supervised-Image-Recognition
会议: ECCV 2018
任务: 分类

Co-Training 假设 $\mathcal{D}=\mathcal{S} \cup \mathcal{U}$ 中的每个数据 $x$ 有两个视图, 即 $x = (v_1, v_2)$ , 每个视图 $v_i$ 都足以学习一个有效的模型. 其中 $\mathcal{S}$ , $\mathcal{U}$ 分别表示标记数据集和未标记数据集. 给定 $\mathcal{D}$ 的分布 $\mathcal{X}$ , Co-Training 假设表示如下:
$f(x)=f_1(v_1)=f_2(v_2),\forall x=(v_1,v_2) \sim\mathcal{X}$
即对于在每个视图 $v_i$ 上训练的模型 $f_i$ , 都有一致的输出, 每个模型都能做出正确的预测. 在给定类标签的情况下, 两个视图条件独立. 基于这个假设, Co-Training 训练简述如下: 首先为 $\mathcal{S}$ 上的每个视图学习一个单独的分类器, 然后将两个分类器对 $\mathcal{U}$ 的预测逐渐加到 $\mathcal{S}$ 上继续进行训练.

将 Co-Training 扩展到深度神经网络中, 一个简单的办法是在 $\mathcal{D}$ 上训练两个神经网络, 但是这种方法有两个严重的缺点:

不能保证两个网络的视图是不同和互补的.
协同训练会使得两个网络在训练过程中趋于一致, 即 collapsed neural networks 现象.

基于此, 提出 Deep Co-Training(DCT), 通过最小化两个网络在 $\mathcal{U}$ 上的预测之间的 JS 散度来模拟 Co-Training 假设. 为了避免 collapsed neural networks, 通过训练对抗样本来施加视图差异约束(View Diﬀerence Constraint).

Deep Co-Training 算法

Co-Training Assumption in DCT

在 DCT 中, $v_1(x)$ 和 $v_2(x)$ 是 $x$ 在最终全连接层 $f_i(·)$ 之前的卷积表示. 在标记数据集 $\mathcal{S}$ 上的标准交叉熵损失函数定义为:
$\mathcal{L}_{\mathrm{sup}}(x,y)=H(y,f_1(v_1(x)))+H(y,f_2(v_2(x)))$
其中 $H (p, q)$ 表示交叉熵. 而对于未标记数据集 $\mathcal{U}$ , 基于 Co-Training 假设, 期望 $f_1(v_1(x))$ 和 $f_2(v_2(x))$ 有相似的预测, 使用 JS 散度来进行 $f_1(v_1(x))$ 和 $f_2(v_2(x))$ 之间的相似性度量, 损失函数定义如下:
$\mathcal{L}_{\mathrm{cot}}(x)=H(\frac{1}{2}(f_1(v_1(x))+f_2(v_2(x))))-\frac{1}{2}(H(f_1(v_1(x)))+H(f_2(v_2(x))))$
其中 $H (p)$ 表示 $p$ 的熵.

View Diﬀerence Constraint in DCT

利用 $g (x)$ 从 $\mathcal{D}$ 中生成对抗样本数据集 $\mathcal{D}'$ , 在 $\mathcal{D}'$ 中 $f_1(v_1(g(x))) \neq f_2(v_2(g(x)))$ . 希望 $g (x)$ 与 $x$ 之间足够小, 以便于对抗样本还能保持自然的图像特征. 不过当 $g (x) - x$ 很小时, 有很大概率会出现 $f_1(v_1(g(x))=f_1(v_1(x))$ 和 $f_2(v_2(g(x))=f_2(v_2(x))$ , 这就与我们的想法违背. 即希望当 $f_1(v_1(g(x))=f_1(v_1(x))$ 出现时, 需满足 $f_2(v_2(g(x))\neq f_2(v_2(x))$ .

通过交叉熵来训练网络 $f_1$ , $f_2$ , 使得可以抵抗相互的对抗示例:
$\mathcal{L}_{\mathrm{dif}}(x)=H(f_1(v_1(x)), f_2(v_2(g_1(x))))+H(f_1(v_1(g_2(x))), f_2(v_2(x)))$
其他文献中, 使用对抗技术可以作为正则化技术来平滑输出, 如 VAT. 或者创建负示例来收紧决策边界.

最终的损失函数定义为:
$\mathcal{L}=\mathbb{E}_{(x,y)\in\mathcal{S}}\mathcal{L}_{\mathrm{sup}}(x,y)+\lambda_{\mathrm{cot}}\mathbb{E}_{x\in\mathcal{U}}\mathcal{L}_{\mathrm{cot}}(x)+\lambda_{\mathrm{dif}}\mathbb{E}_{x\in\mathcal{D}}\mathcal{L}_{\mathrm{dif}}(x)$

DCT 训练迭代过程

在这里插入图片描述
在 DCT 训练循环的每次迭代中, 两个神经网络 $p_1$ , $p_2$ 接收不同的标记数据 $x_{b_1},y_{b_1})$ , $x_{b_2},y_{b_2})$ . 通过 FGSM 分别生成对抗样本 $g_1(x_{b_1} \cup x_u)$ , $g_2(x_{b_2} \cup x_u)$ . 使用梯度下降计算 $\mathcal{L}$ , 并更新 $p_1$ , $p_2$ 的参数.