卷积神经网络说白了就是拿一堆小的矩阵去点乘(注意我说的是点乘,不是矩阵乘,这个很重要)一个大矩阵,最后得到局部信息。看图(来源于网络,只做说明用):
给出一个matlab求解代码:
A1 = [0 0 0 0 0 0 0;
0 0 1 1 0 2 0;
0 2 2 2 2 1 0;
0 1 0 0 2 0 0;
0 0 1 1 0 0 0;
0 1 2 0 0 2 0;
0 0 0 0 0 0 0];
A2 =[0 0 0 0 0 0 0;
0 1 0 2 2 0 0;
0 0 0 0 2 0 0;
0 1 2 1 2 1 0;
0 1 0 0 0 0 0;
0 1 2 1 1 1 0;
0 0 0 0 0 0 0];
A3 =[0 0 0 0 0 0 0;
0 2 1 2 0 0 0;
0 1 0 0 1 0 0;
0 0 2 1 0 1 0;
0 0 1 2 2 2 0;
0 2 1 0 0 1 0;
0 0 0 0 0 0 0];
w1 = [-1 1 0
0 1 0
0 1 1];
w2 = [-1 -1 0
0 0 0
0 -1 0]
w3 = [0 0 -1
0 1 0
1 -1 -1]
a = zeros(3,3);
for i = 1:2:5
for j = 1:2:5
sum1 = sum(sum(A1(i:i+2,j:j+2).*w1));
sum2 = sum(sum(A2(i:i+2,j:j+2).*w2));
sum3 = sum(sum(A3(i:i+2,j:j+2).*w3));
a((i+1)/2,(j+1)/2) = sum1 + sum2 + sum3 + 1;
end
end
输入一张矩阵表示的图片,有3个通道(RGB),用两个卷积核去卷积它,每一个卷积核又是3通道的,为什么卷积核从三通道变成了二通道,那是因为在3进行3通道卷积后,最后的卷积结果加和了,并且加上了偏置。还不懂?你算一下FilterW0那一层和InputVolume那一层对应元素相乘之后加偏置1是不是等于6,所有的东西依此类推就计算出最后的输出矩阵了。
下面来说一下卷积后的图像的深度(D)、宽度(W)、长度(L)都编程多少了。首先有一个概念,叫padding,实际上在tensorflow和Keras中关于卷积的时候都有两个方法可供选择,叫valid和same,所谓valid就是两边不补0,SAME就是两边补相同数目的0。好了那么问题来了,两边步几个0怎么计算啊,大家不要急这个是固定的。
- 3*3,padding大小一般为1,两边的就2*1=2
- 5*5,padding大小一般为2,两边的就2**=4
- 7*7,padding大小一般为3,两边的就3*2=6
卷积以后的卷积核大小怎么求呢,首先确定卷积以后的矩阵深度(W)等于卷积核大小,也是是说一个卷积核生成一个feature_map(这个不懂的话自己去百度,其实图中那个绿色的矩阵就是一个feature_map)。
然后再来说说长度和宽度,这个玩意由于是正方形矩阵,其实是一回事,有个计算公式:
是不是觉得好理解多了,转化成符号:- s是stride,也就是步长
其中W/H表示宽度/长度,P表示单边(画重点单边)补全数,K代表卷积核的大小(比如5*5就是5)。好了又有一个问题出来了,为啥要加1呢,这个你就这么理解吧 你算1-9之间有几个数是不是9-1+1共9个数啊。