conv2d的输入_Keras中Conv1D和Conv2D的区别

weixin_39843338

于 2020-12-21 15:29:35 发布

阅读量235

点赞数

文章标签： conv2d的输入

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39843338/article/details/111797927

版权

本文探讨了在Keras中，当Conv2D输入通道为1时，Conv1D与Conv2D之间的关系。通过分析源代码，指出在特定条件下两者可以相互转化。Conv1D(kernel_size=3)实际上等同于Conv2D(kernel_size=(3,300))，适用于序列特征提取，尤其在自然语言处理中，能快速有效地提取n_gram=3的特征。" 130452297,17858048,Python实现车辆测速：内部检测法与OpenCV外部物理量法,"['Python编程', '图像处理', '计算机视觉', '车辆工程', '传感器技术']

摘要由CSDN通过智能技术生成

如有错误，欢迎斧正。

我的答案是，在Conv2D输入通道为1的情况下，二者是没有区别或者说是可以相互转化的。首先，二者调用的最后的代码都是后端代码(以TensorFlow为例，在tensorflow_backend.py里面可以找到)：

x = tf.nn.convolution(

input=x,

filter=kernel,

dilation_rate=(dilation_rate,),

strides=(strides,),

padding=padding,

data_format=tf_data_format)

区别在于input和filter传递的参数不同，input不必说，filter=kernel是什么呢？

我们进入Conv1D和Conv2D的源代码看一下。他们的代码位于layers/convolutional.py里面，二者继承的都是基类_Conv(Layer)。进入_Conv类查看代码可以发觉以下代码：

self.kernel_size = conv_utils.normalize_tuple(kernel_size, rank, 'kernel_size')

……#中间代码省略

input_dim = input_shape[channel_axis]

kernel_shape = self.kernel_size + (input_dim, self.filters)

我们假设，Conv1D的input的大小是(600,300)，而Conv2D的input大小是(600)，二者kernel_size为3。

进入conv_utils.normalize_tuple函数可以看到：

def normalize_tuple(value, n, name):

"""Transforms a single int or iterable of ints into an int tuple.

# Arguments

value: The value to validate and convert. Could an int, or any iterable

of ints.

n: The size of the tuple to be returned.

name: The name of the argument being validated, e.g. "strides" or

"kernel_size". This is only used to format error messages.

# Returns

A tuple of n integers.

# Raises

ValueError: If something else than an int/long or iterable thereof was

passed.

"""

if isinstance(value, int):

return (value,) * n

else:

try:

value_tuple = tuple(value)

except TypeError:

raise ValueError('The `' + name + '` argument must be a tuple of ' +

str(n) + ' integers. Received: ' + str(value))

if len(value_tuple) != n:

raise ValueError('The `' + name + '` argument must be a tuple of ' +

str(n) + ' integers. Received: ' + str(value))

for single_value in value_tuple:

try:

int(single_value)

except ValueError:

raise ValueError('The `' + name + '` argument must be a tuple of ' +

str(n) + ' integers. Received: ' + str(value) + ' '

'including element ' + str(single_value) + ' of type' +

' ' + str(type(single_value)))

return value_tuple

所以上述代码得到的kernel_size是kernel的实际大小，根据rank进行计算，Conv1D的rank为1，Conv2D的rank为2，如果是Conv1D，那么得到的kernel_size就是(3,)如果是Conv2D，那么得到的是(3,3)

input_dim = input_shape[channel_axis]

kernel_shape = self.kernel_size + (input_dim, self.filters)

又因为以上的inputdim是最后一维大小，filter数目我们假设二者都是64个卷积核。因此，Conv1D的kernel的shape实际为：

(3,300,64)

而Conv2D的kernel的shape实际为：

(3,3,1,64)

如果，我们将传参Conv2D时使用的的kernel_size设置为自己的元组例如(3,300)，那么传根据conv_utils.normalize_tuple函数，最后的kernel_size会返回我们自己设置的元组，也即(3,300)那么Conv2D的实际shape是：

(3,300,1,64)，也即这个时候的Conv1D的大小reshape一下得到，二者等价。

换句话说，Conv1D(kernel_size=3)实际就是Conv2D(kernel_size=(3,300))，当然必须把输入也reshape成(600,300,1)，即可在多行上进行Conv2D卷积。

这也可以解释，为什么在Keras中使用Conv1D可以进行自然语言处理，因为在自然语言处理中，我们假设一个序列是600个单词，每个单词的词向量是300维，那么一个序列输入到网络中就是(600,300)，当我使用Conv1D进行卷积的时候，实际上就完成了直接在序列上的卷积，卷积的时候实际是以(3,300)进行卷积，又因为每一行都是一个词向量，因此使用Conv1D(kernel_size=3)也就相当于使用神经网络进行了n_gram=3的特征提取了。这也是为什么使用卷积神经网络处理文本会非常快速有效的内涵。

weixin_39843338

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
conv2d的输入_Keras中Conv1D和Conv2D的区别

如有错误，欢迎斧正。我的答案是，在Conv2D输入通道为1的情况下，二者是没有区别或者说是可以相互转化的。首先，二者调用的最后的代码都是后端代码(以TensorFlow为例，在tensorflow_backend.py里面可以找到)：x=tf.nn.convolution(input=x,filter=kernel,dilation_rate=(dilation_rate,),strides=...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。