【自问自答】Semi-Supervised Deep Regression with Uncertainty Consistency and Variational Model Ensembling

来日可期1314

已于 2023-05-29 16:06:36 修改

阅读量146

点赞数 1

分类专栏：论文阅读文章标签：深度学习人工智能机器学习

于 2023-05-29 15:16:11 首次发布

本文链接：https://blog.csdn.net/ssjq123/article/details/130927047

版权

论文阅读专栏收录该内容

29 篇文章 0 订阅

订阅专栏

写在前面：由于之前已经写过这篇论文的阅读笔记，在这里是我精度之后产生的问题以及对应的我的理解（不一定正确，可能存在强行解释）。

基础模型使用的ResNet，其中具体的结构是怎样的？
参考。其中，在原文中有五个参数量不同的网络结构，分别是ResNet18，ResNet34，ResNet50，ResNet101，ResNet152，其中数字表示网络用的总层数，越多表示网络越深也就是越复杂。本文使用的是ResNet50作为编码器提起图像特征。
本文使用的BNN结构是怎样的呢？
从代码上来看，仅仅是在层与层之间添加了dropout。值得注意的是，与传统的单输出不同，文中的模型有两个输出，分别对应预测值（x_m）与对应的不确定性（x_v）。

 def _forward_impl(self, x: Tensor) -> Tensor:
        # See note [TorchScript super()]
        x = self.conv1(x)
        x = self.bn1(x)
        x = self.relu(x)
        x = self.maxpool(x)

        x = self.layer1(x)
        x = nn.functional.dropout(x, p=self.drop_rate, training=True)
        x = self.layer2(x)
        x = nn.functional.dropout(x, p=self.drop_rate, training=True)
        x = self.layer3(x)
        x = nn.functional.dropout(x, p=self.drop_rate, training=True)
        x = self.layer4(x)

        x = self.avgpool(x)
        x = torch.flatten(x, 1)

        x_feat_m = nn.functional.dropout(x, p=self.drop_rate, training=True)
        x_feat_v = nn.functional.dropout(x, p=self.drop_rate, training=True)


        x_m = self.fc_m(x_feat_m)
        x_v = self.fc_v(x_feat_v)

        return x_m, x_v

本文是使用了两个相同的模型来完成集成，如何确保多样性？
实际上，论文中没有提到这一问题。我在代码中也没有发现相应的控制，实际上应该是在训练阶段不同的dropout保证的多样性，这样才不至于两个模型一致（集成就没有意义了）。

		# 模型1
		model = models.resnet50_unc(pretrained=pretrained, drp_p = drp_p)
		model = torch.nn.DataParallel(model)
		# 模型1
		model_1 = models.resnet50_unc(pretrained=pretrained, drp_p = drp_p)
		model_1 = torch.nn.DataParallel(model_1)

BNN训练如何体现？
1. 这里面有一个认识误区。前面我们说到，模型有两个输出，x_m，x_v。其中x_m对应预测值有标签，x_v对应于认知不确定性，没有标签。那么x_v是怎么训练的呢？对于x_v的约束体现在不确定性一致上，同时在有标记数据和无标记数据上。其实，x_v参与了loss计算，而且x_v也是模型预测的，最小化loss，也就会优化模型了。
2. 同时在无监督损失中，为了减少variance，用samp_ssl=5次重复预测（增加采样）的均值作为伪标签。
3. 参考> 注意到，在学习偶然不确定性时，其实是不需要标记的。如果一个像素很难预测对，为了最小化整个损失， $\hat{\sigma}_i$ 会相应地变大，而 $\log(\hat{\sigma}_i^2)$ 又会防止 $\hat{\sigma}_i$ 变得无穷大。并不需要 $\sigma_i$ 的ground truth。

  with torch.no_grad():
            for samp_ssl_itr in range(samp_ssl):
                mean1_raw_0, var1_raw_0 = model(X_ulb_in)
                mean1_0 = mean1_raw_0.view(-1)
                var1_0 = var1_raw_0.view(-1)
                mean2s_0.append(mean1_0)
                var1s_0.append(var1_0)

                mean1_raw_1, var1_raw_1 = model_1(X_ulb_in)
                mean1_1 = mean1_raw_1.view(-1)
                var1_1 = var1_raw_1.view(-1)
                mean2s_1.append(mean1_1)
                var1s_1.append(var1_1)


        mean2s_0_stack = torch.stack(mean2s_0, dim=1).to("cpu").detach().numpy()
        mean2s_0_stack_ls.append(mean2s_0_stack)
        var1s_0_stack = torch.stack(var1s_0, dim=1).to("cpu").detach().numpy()
        var1s_0_stack_ls.append(var1s_0_stack)
		# Notice
        mean1s_0_ = torch.stack(mean1s_0, dim=0).mean(dim=0)
        mean2s_0_ = torch.stack(mean2s_0, dim=0).mean(dim=0)
        var1s_0_ = torch.stack(var1s_0, dim=0).mean(dim=0)

        mean2s_1_stack = torch.stack(mean2s_1, dim=1).to("cpu").detach().numpy()
        mean2s_1_stack_ls.append(mean2s_1_stack)
        var1s_1_stack = torch.stack(var1s_1, dim=1).to("cpu").detach().numpy()
        var1s_1_stack_ls.append(var1s_1_stack)
		# Notice
        mean1s_1_ = torch.stack(mean1s_1, dim=0).mean(dim=0)
        mean2s_1_ = torch.stack(mean2s_1, dim=0).mean(dim=0)
        var1s_1_ = torch.stack(var1s_1, dim=0).mean(dim=0)