需要以3d的思维去考虑feature map,比如用773的卷积核去卷积,77是对feature size进行卷积,和2d一样,3是对feature map的数量进行卷积。如果有两个卷积核那么就在卷积基础上乘以2。一个20208的featuremap 经过3个77*3的卷积核卷积之后的总数应该是(8-3+1)*3
在3dcnn的论文中,作者将7帧的连续帧输入,将每一帧解析并且合并会得到5个通道,分别是灰度,x梯度,y梯度,光流x,光流y,这5个通道的第三维分别为7,7,7,6,6.在下一个卷积层中做773的卷积是分别对这5个通道做卷积,而不是把他们合并做卷积(可以把解析层当作有5个卷积核,只不过他们结果的通道数不一样)。如果是两个卷积核那么得到的通道数应该是10(要和feature map的数量区分开)。feature map的数量应该是((7-3)+1)+((7-3)+1)+((7-3)+1)+((6-3)+1)+((6-3)+1)+((7-3)+1)+((7-3)+1)+((7-3)+1)+((6-3)+1)+((6-3)+1).继续做卷积,现在卷积核的数量是3,依然是773,这个时候通道数为30.feature map数量为(((5-3)+1)+((5-3)+1)+((5-3)+1)+((4-3)+1)+((4-3)+1)+((5-3)+1)+((5-3)+1)+((5-3)+1)+((4-3)+1)+((4-3)+1))*3。经过最后的一个卷积层之后获得128维的featuremap,原因是在最后一层卷积层将这些通道合并,是78个2dfeature map。用128个二维卷积核去做卷积(直接当作2dcnn即可)。