一.解决的问题
1.卷积神经网络(CNNs)是一种能够直接作用于原始输入的深度学习模型,从而实现了特征构建过程自动化。
2.这些模型目前仅限于处理2D输入。在这篇论文中,我们开发了一个新颖的3D CNN动作识别模型。
3.该模型通过三维卷积从空间和时间两方面提取有限元数据,从而捕获多个相邻帧的运动信息。所建立的模型从输入帧中生成多个信息通道,通过对各通道的信息进行融合得到最终的特征表示。将所建立的模型应用于现实环境中对人的行为进行识别
二.3D卷积神经网络
1. 2D卷积计算公式:
(1)第i层第j个feature map中(x,y)位置的输出值,记为
V
i
j
x
y
V^{xy}_{ij}
Vijxy。
(2)
P
i
P_i
Pi和
Q
i
Q_i
Qi分别是核的高度和宽度。
(3)
W
i
j
k
p
q
W^{pq}_{ijk}
Wijkpq是内核连接到第k个feature map的位置(p,q)处的值。
2. 2D和3D卷积的区别
如下图所示3D卷积在temporal维度上每3个作为一个卷积核的输出,组成一个cube
3. 3D卷积计算公式
(1)其中R i是沿时间维的三维核的大小
(2)
w
i
j
m
p
q
r
w^{pqr}_{ijm}
wijmpqr是上一层第m个feature map的kernel的第(p,q,r)的值
三.文本3D卷积网络图(注意下面数字的变化)
(1)input:连续7帧的60*40的图片,也就是咱们的 batchsize
×
\times
×channel
×
\times
×width
×
\times
×high
×
\times
×frame
(2)input
h
a
r
d
w
i
r
e
d
⇒
hardwired\Rightarrow
hardwired⇒ H1:将这7帧沿着5个维度进行分组 灰度(gray),宽(gradient-x),高(gradient-y),光流x(optflow-x),光流y(optflow-y),前3个每一帧都进行获取,后两个每两帧进行获取,因此:
经过hardwired得到 FeatureMaps个数为((7-1)+1)
×
\times
× 3+((7-2)+1)
×
\times
× 2=(7+7+7+6+6)= 33,也就是整体为
H1的FeatureMap = 33
×
\times
× 60
×
\times
× 40
(3)H1---->C2:使用2个尺寸为[7,7,3]的3D卷积核(空间维度7×7,时间维度3)进行卷积可得到:
FeatureMaps个数为 :(((7-3)+1)
×
\times
× 3+((6-3)+1)
×
\times
× 2)
×
\times
× 2= (5+5+5+4+4)
×
\times
× 2 = 23
×
\times
× 2
宽高为:(60-7)+1=54,(40-7)+1=34
C2的FeatureMap = 23
×
\times
× 2
×
\times
× 54
×
\times
× 34
(4)C2 ----->S3 进行下采样也就是pooling为 S3的FeatureMap = 23 × \times × 2 × \times × 27 × \times × 17
(5)S3 ------>C4 :使用6个尺寸为[7,6,3]的3D卷积核(空间维度7×6,时间维度3)进行卷积可得到:
FeatureMaps个数为 :(((5-3)+1)
×
\times
× 3+((4-3)+1)
×
\times
× 2)
×
\times
× 6= (3+3+3+2+2)
×
\times
× 6 = 13
×
\times
× 6
宽高为:(27-7)+1=21,(17-6)+1=12
C4的FeatureMap = 13
×
\times
× 6
×
\times
× 21
×
\times
× 12
(6)C4 ----->S5 进行下采样也就是pooling为 S5的FeatureMap = 13 × \times × 6 × \times × 7 × \times × 4
(7)S5 ------>C6 :使用1个尺寸为[7,4]的3D卷积核(空间维度7×4)进行卷积可得到:
FeatureMaps个数为 :128
宽高为:(7-7)+1=1,(4-4)+1=1
C4的FeatureMap = 13
×
\times
× 6
×
\times
× 1
×
\times
× 1=128
×
\times
× 1
×
\times
× 1
(8)对于一个动作识别问题被分为3类,输出层可训练参数数为128 × \times × 3 = 384
(9)对于卷积神经网络,有一个设计方法是:在离输出层距离较近的FeatureMap 个数应该增加(卷积核应该越往后越多),这样就可以从低级的FeatureMap的相互组合中产生更多类型和更高维的特征
四.Conclusion
整体来看特征图和大小来看2,归纳为下图: