【NCC】TF版转Pytorch版

zzl_1998

已于 2023-03-13 14:47:13 修改

阅读量899

点赞数

分类专栏：网络攻防文章标签： pytorch 深度学习神经网络

于 2020-10-06 11:02:06 首次发布

本文链接：https://blog.csdn.net/qq_40731332/article/details/108937095

版权

网络攻防专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文探讨了在使用PyTorch实现《Discovering causal signals in images》中NCC和NCC-ResNet50模块时遇到的问题，涉及数据格式调整、模型细节解析，以及如何调试和优化以接近原作者结果。

摘要由CSDN通过智能技术生成

GitHub - zzl421/NCC-pytorch: pytorch vision of NCC

目前在用pytorch复现Discovering causal signals in image这篇文章。

整篇文章大体分为两个部分：NCC，NCC-ResNet50。两个部分我复现的结果是0.73/0.93，对应作者代码是0.79/0.96，但当把两个模块组合使用时，无法复现原作者的结论。用作者的两个模块测试我复现的两个模块，发现都有问题。

一、NCC

1. 数据生成：用的论文作者提供的数据生成代码

2. NCC模型：四层，每一层包括Linear-Normalization-relu-dropout，前两层称为embeded layer，后两层称为classification layer.

输入 => embeded layer - reduce_mean - classificaiton layer - sigmoid => 输出

pytorch的Linear与TF的Dense不同，需要指定输入数据的维度；同时Normalizaiton层需要调换Linear输出的数据维度顺序，确保输入Normalization层的第二维长度是固定的（Linear输出维度）

二、NCC-ResNet50

输入 => vgg_preprocessing => ResNet50 => 512-512-20

其中，ResNet50的最后一层fc需要去掉，使用global pooling输出的2048维特征。我在复现中没有使用vgg_preprocessing，之后考虑加入后重新测试：

vgg_preprocessing:

1. 面向训练的预处理形式，
随机获取短边长度在[256, 512]这个范围中，等比例resize图片。
resize_side = tf.random_uniform([], minval=_RESIZE_SIDE_MIN, _RESIZE_SIDE_MAX+1)
_aspect_preserving_resize(image, resize_side)
随机获取224x224的切片
image = __random_crop([image], output_height, output_width)[0]
image.set_shape([output_height, output_width, 3])
tf.to_float(image)
随机水平镜像
if,image.random_flip_left_right(image)
减去ImageNet训练集的RGB均值
_mean_image_subtraction(image, [_R_MEAN, _G_MEAN, _B_MEAN])

2. 面向测试的预处理形式
给定短边长度为256，等比例resize图片。
中心切片裁出来224x224的大小图像
减去ImageNet训练集的RGB均值

三、总结

1. NCC模型很简单，但我感觉输入的数据格式我还没有理解，我复现的Pytorch版，抖动非常厉害，我觉得出了和优化器有一定关系外，和数据输入应该关系也很大。

2. NCC-ResNet50，有两个问题需要解决，一个是输入的features到底是resnet-50第几层的输出；没写数据预处理和增强的部分。

3. Debug小技巧

import pdb
pdb.set_trace()
n # 执行下一行
p self.xx.shape # 输出

zzl_1998

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录