第一个版本讲解
cross entropy 交叉熵
3-D tensor(张量):宽(W)、长(H)、3 channels(RGB)
nueral receptive field
多个neurons可以表示同一个receptive field(根据问题理解决定receptive field范围,不一定非要是什么图形)
经典安排方式(Typical Setting):
kernel size就是长跟宽:eg. 3就是3*3(常见的大小)
一般希望receptive field 有高度的重叠,为避免边界地方无法使用,若超出了范围,哪些超出的地方就补值(padding),一般默认为0;
Observation 2:
同样的观察(the same patterns)可以出现不同的区域里
某个neuron是负责观察特定区域的某个特征的
parameter sharing(共享参数):两个neuron的weight(权值或者参数)是完全一样的,receptive field不一样但是参数是一模一样的,但不用担心输出是一样的,因为他们各自的输入是不一样的。共用的每组参数可以叫做filter1、filter2.......
bias(偏差)具体参考偏差讲解
bias大并不是一件坏事,他可能导致的是overfitting(过拟合)小
convolutional layer 其实是receptive field和parameter sharing的结合,当选用receptive field的时候,因为范围变小,所以有些权值我们可能用不到,那么这些权值就设为0就好了
第二个版本讲解:
convolution
每一个filter和这个image都会产生一定的layer/channels,那么64个filter就会产生64个channels的feature map(特征图谱),这个可以看做是另一张图片
网络叠的够深,那么看的范围也就越大,比如在这个例子中,第二层虽然也是3*3的,但是,她代表的其实是第一层的5*5的范围,相应的,依次进行下去,包含的范围就会越来越大
neuron中的weight就是filter里的数值,同一个filter扫过整张图片就是共享参数
Observation 3:pooling不一定适合所有的cnn
max pooling:每个filter里可以分组(比如2分成*2),然后组内选出值最大的那一个
CNN并不能够处理影像放大缩小旋转等操作,我们需要用到data argumentation。