【Deep Learning】torch.nn.Conv2d用法及filter和kernel的区别

这几天学习pytorch时发现torch.nn.Conv2d需要指定out_channels,对此感到疑惑。而tensorflow时只需要指定input和filter就行了,因为之前以为filter是二维的,对每一个feature map都会输出一个新的feature map,所以有out_channels = in_channels * filter_count,而pytorch中需要同时指定in_channels,out_channels和kernel_size,无法保证out_channels是in_channels的整数倍,所以对此感到疑惑。

阅读tensorflow的源码发现filter并不是二维的,源码中对filter的解释是:

filter: A `Tensor`. Must have the same type as `input`.
      A 4-D tensor of shape
      `[filter_height, filter_width, in_channels, out_channels]`

tensorflow.nn.conv2d中filter变量是四维的,也要同时指定in_channels和out_channels,这和我之前对卷积网络的filter的理解不一致。重新查阅了卷积网络的一些资料,原来参与卷积运算的filter并不是2维的,假如input是3维的,那么filter也必须是3维的,每一个filter(过滤器)只会对input卷积出来一个feature map,而不是像我之前以为的一个filter过滤器(维数为2)对input的每一层都会卷积出来一个feature map。

所以tensorflow.nn.conv2d的正确理解应该是:

input[batch_size, feature_height, feature_width, in_channels ]

batch_size是一次训练的批量大小,也就是一次输入多少张图片,中间二项是特征图的宽高,in_channels是层数,如灰度图片层数为1,RGB图片的层数为3。

filter: [filter_height, filter_width, in_channels, out_channels]

前二项是特征图宽高,in_channels是层数,要和input的层数保持一致,否则执行会报错,out_channels是输出的层数,其实也就是参与卷积的过滤器的数量。

理解了tensorflow.nn.conv2d再看torch.nn.Conv2d的定义:

'''
	...
	kernel_size (int or tuple): Size of the convolving kernel
	...
'''
def __init__(self, in_channels, out_channels, kernel_size, stride=1,
					 padding=0, dilation=1, groups=1,
					 bias=True, padding_mode='zeros')

kernel_size实际上是filter的宽高,即[filter_height, filter_width],in_channels是层数,out_channels是输出层数,也就是filter的数量,和tensorflow的含义是一样的。

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值