SEAN代码(2)

输入image,label分别经过生成器和判别器。
在这里插入图片描述
经过生成器计算的是损失和产生的图片。并且在内部损失进行反向传播,优化器进行更新。
在这里插入图片描述
在pix2pix_model内部:首先对输入数据进行预处理。
在这里插入图片描述

    def preprocess_input(self, data):
        # move to GPU and change data types
        data['label'] = data['label'].long()
        if self.use_gpu():
            data['label'] = data['label'].cuda(non_blocking=True)
            data['instance'] = data['instance'].cuda(non_blocking=True)
            data['image'] = data['image'].cuda(non_blocking=True)

        # create one-hot label map
        label_map = data['label']
        bs, _, h, w = label_map.size()
        nc = self.opt.label_nc + 1 if self.opt.contain_dontcare_label \
            else self.opt.label_nc
        input_label = self.FloatTensor(bs, nc, h, w).zero_()
        input_semantics = input_label.scatter_(1, label_map, 1.0)

        # concatenate instance map if it exists
        if not self.opt.no_instance:
            inst_map = data['instance']
            instance_edge_map = self.get_edges(inst_map)
            input_semantics = torch.cat((input_semantics, instance_edge_map), dim=1)

        return input_semantics, data['image']

在预处理代码中首先将image,label传到cuda上,接着将label转换为one-hot编码。原本的(4,1,256,256)转变成了(4,19,256,256)。最后输出编码后的label和原始的RGB。
接着计算生成器损失:
在这里插入图片描述
在函数内部,将RGB和编码后label输入到生成器中,产生fake image。
在这里插入图片描述
在SPADEGenerator函数中,首先将标签图下采样到(1,19,8,8),然后经过一个卷积输出为(1,1024,8,8)。
接着将输入的RGB和编码后标签输入到Zencoder产生ST。
在这里插入图片描述
RGB经过model,在代码(1)中讲述了Zencoder的组成,最终输出大小为(1,512,128,128)。将语义图也下采样到(1,19,128,128)。
在这里插入图片描述
首先生成一个大小为(4,19,512)向量,4是batchsize。
在这里插入图片描述
向code_vector里面添值。
在这里插入图片描述
首先b_size为4,s_size为19。
下面计算分割图中不为0的像素总数。
接着使用segmap的掩膜选取RGB经过模型的输出,再求均值,填入到code_vector直至遍历结束。
具体来说:
1:i=0,表示第一个batch,j=0表示第一个通道。segmap.bool()表示对segmap所有值进行布尔操作。
在这里插入图片描述
2:segmap.bool()[0,0],表示取第一个batch的第一个通道值。然后将所有为Ture的像素个数汇总,长宽为128的图片,为true的共有4387个像素。
在这里插入图片描述
3:code[i]等于选择code第几个batch的特征。
在这里插入图片描述
4:假设选择第一个batch的特征,将segmap.bool()[i, j]即segmap第一个batch的第一个通道值作为mask放在code[i]上。输出全为true的值。
在这里插入图片描述
5:将为true的值reshape为(512,xxxx)。在沿着行维度求均值。最终大小就是512.
6:将512个值填入codes_vector中。
在这里插入图片描述
6:首先内层遍历19次将第一个通道填满,外层再遍历4次,将4个通道填满。得到Zencoder最终输出style_codes。
接着输入到SPADEResnetBlock中:
在这里插入图片描述
在这里插入图片描述
在ACE中首先添加噪声:
噪声大小为(4,8,8,1),热后和噪声的方差(1024)相乘,将1024广播到1024x1024,(4,8,8,1)广播到(4,8,8,1024),相乘后为(4,8,8,1024)经过转换为(4,1024,8,8)。在这里插入图片描述
将segmap下采样。
在这里插入图片描述
生成一个全零矩阵。
在这里插入图片描述
这一部分的for循环和前面的一样,首先遍历batch,再遍历通道。
在这里插入图片描述
1:首先获得segmap中不等于0的像素总数。
2:self.getattr(‘fc_mu’ + str(j))是实例的fc_mu0属性,对应于:
在这里插入图片描述
3:这里是求的style_codes[i][j],即列对应的值。
4:将512rshape为(512,1)。在扩充到(self.style_length, component_mask_area),这里的component_mask_area是下采样后的segmap。
5:将segmap对应false的值即0用来替换掉component_mu的值。
在这里插入图片描述
就这样执行19次,再执行外部的batch循环。
最后的SEAN可以表示为:
在这里插入图片描述
用公式表示为:
在这里插入图片描述
将输出的结果经过leakrelu和卷积并再执行一次。
最后执行一个跳连接操作。对应于文中:
在这里插入图片描述
head0执行完毕。将输出结果上采样并在执行一次SAPDERES。
在这里插入图片描述
最后输出一个大小为(4,3,256,256)大小的RGB图。
这就是生成器的全部代码。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值