背景
最近在看深度学习的东西。使用的参考书是《深度学习入门——基于python的理论与实现》。在看到7.4时,里面引入了一个im2col的函数,从而方便讲不断循环进行地相乘相加操作变成矩阵的运算,通过空间资源换取时间效率。
为什么要这么操作和操作以后col矩阵的样子比较好理解。由于对python和numpy不太熟悉,理解书上给出的程序实现想了很久。终于有点感觉了,记录下来。
书上的程序
def im2col(input_data, filter_h, filter_w, stride=1, pad=0):
"""
Parameters
----------
input_data : 由(数据量, 通道, 高, 长)的4维数组构成的输入数据
filter_h : 滤波器的高
filter_w : 滤波器的长
stride : 步幅
pad : 填充
Returns
-------
col : 2维数组
"""
N, C, H, W = input_data.shape
out_h = (H + 2*pad - filter_h)//stride + 1
out_w = (W + 2*pad - filter_w)//stride + 1
img = np.pad(input_data, [(0,0), (0,0), (pad, pad), (pad, pad)], 'constant')
col = np.zeros((N, C, filter_h, filter_w, out_h, out_w))
for y in range(filter_h):
y_max = y + stride*out_h
for x in range(filter_w):
x_max = x + stride*out_w
col[:, :, y, x, :, :] = img[:, :, y:y_max:stride, x:x_max:stride]
col = col.transpose(0, 4, 5, 1, 2, 3).reshape(N*out_h*out_w, -1)
return col
分析
首先只考虑一个数据,即此时 N = 1 N=1 N=1。并且假设数据只有一层,比如灰度图,即