3DCNN:3D Convolutional Neural Networks for Human Action Recognition

一.解决的问题

1.卷积神经网络(CNNs)是一种能够直接作用于原始输入的深度学习模型,从而实现了特征构建过程自动化。
2.这些模型目前仅限于处理2D输入。在这篇论文中,我们开发了一个新颖的3D CNN动作识别模型。
3.该模型通过三维卷积从空间和时间两方面提取有限元数据,从而捕获多个相邻帧的运动信息。所建立的模型从输入帧中生成多个信息通道,通过对各通道的信息进行融合得到最终的特征表示。将所建立的模型应用于现实环境中对人的行为进行识别

二.3D卷积神经网络

1. 2D卷积计算公式:
在这里插入图片描述
(1)第i层第j个feature map中(x,y)位置的输出值,记为 V i j x y V^{xy}_{ij} Vijxy
(2) P i P_i Pi Q i Q_i Qi分别是核的高度和宽度。
(3) W i j k p q W^{pq}_{ijk} Wijkpq是内核连接到第k个feature map的位置(p,q)处的值。

2. 2D和3D卷积的区别
如下图所示3D卷积在temporal维度上每3个作为一个卷积核的输出,组成一个cube

在这里插入图片描述
在这里插入图片描述

3. 3D卷积计算公式
在这里插入图片描述
(1)其中R i是沿时间维的三维核的大小
(2) w i j m p q r w^{pqr}_{ijm} wijmpqr是上一层第m个feature map的kernel的第(p,q,r)的值

三.文本3D卷积网络图(注意下面数字的变化)

在这里插入图片描述
(1)input:连续7帧的60*40的图片,也就是咱们的 batchsize × \times ×channel × \times ×width × \times ×high × \times ×frame

(2)input h a r d w i r e d ⇒ hardwired\Rightarrow hardwired H1:将这7帧沿着5个维度进行分组 灰度(gray),宽(gradient-x),高(gradient-y),光流x(optflow-x),光流y(optflow-y),前3个每一帧都进行获取,后两个每两帧进行获取,因此:
经过hardwired得到 FeatureMaps个数为((7-1)+1) × \times × 3+((7-2)+1) × \times × 2=(7+7+7+6+6)= 33,也就是整体为
H1的FeatureMap = 33 × \times × 60 × \times × 40

(3)H1---->C2:使用2个尺寸为[7,7,3]的3D卷积核(空间维度7×7,时间维度3)进行卷积可得到:
FeatureMaps个数为 :(((7-3)+1) × \times × 3+((6-3)+1) × \times × 2) × \times × 2= (5+5+5+4+4) × \times × 2 = 23 × \times × 2
宽高为:(60-7)+1=54,(40-7)+1=34
C2的FeatureMap = 23 × \times × 2 × \times × 54 × \times × 34

(4)C2 ----->S3 进行下采样也就是pooling为 S3的FeatureMap = 23 × \times × 2 × \times × 27 × \times × 17

(5)S3 ------>C4 :使用6个尺寸为[7,6,3]的3D卷积核(空间维度7×6,时间维度3)进行卷积可得到:
FeatureMaps个数为 :(((5-3)+1) × \times × 3+((4-3)+1) × \times × 2) × \times × 6= (3+3+3+2+2) × \times × 6 = 13 × \times × 6
宽高为:(27-7)+1=21,(17-6)+1=12
C4的FeatureMap = 13 × \times × 6 × \times × 21 × \times × 12

(6)C4 ----->S5 进行下采样也就是pooling为 S5的FeatureMap = 13 × \times × 6 × \times × 7 × \times × 4

(7)S5 ------>C6 :使用1个尺寸为[7,4]的3D卷积核(空间维度7×4)进行卷积可得到:
FeatureMaps个数为 :128
宽高为:(7-7)+1=1,(4-4)+1=1
C4的FeatureMap = 13 × \times × 6 × \times × 1 × \times × 1=128 × \times × 1 × \times × 1

(8)对于一个动作识别问题被分为3类,输出层可训练参数数为128 × \times × 3 = 384

(9)对于卷积神经网络,有一个设计方法是:在离输出层距离较近的FeatureMap 个数应该增加(卷积核应该越往后越多),这样就可以从低级的FeatureMap的相互组合中产生更多类型和更高维的特征

四.Conclusion

整体来看特征图和大小来看2,归纳为下图:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值