行为识别模型R(2+1)D的模型结构

本文详细介绍了用于行为识别的R(2+1)D模型,包括其代码链接与相关论文引用。重点讨论了SpatioTemporalConv模块、SpatioTemporalResLayer及ResBlock的结构,强调了在R(2+1)D模型中,卷积操作是如何分为Spatial和Temporal两部分进行的。同时,提到了在不同downsample设置下的模型结构差异。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

R(2+1)D代码链接与论文

链接: https://github.com/jfzhang95/pytorch-video-recognition.
论文:《A Closer Look at Spatiotemporal Convolutions for Action Recognition》

建议对照代码看

R(2+1)D模型结构

R(2+1)D模型结构图
block_type=SpatioTemporalResBlock
layer_size=[2,2,2,2]

Created with Raphaël 2.3.0 inputs:(N,3,16,112,112) SpatioTemporalConv:(3,64,(1,7,7),stride=(1,2,2),padding=(0,3,3),first_conv=True) ------------------------------------outputs:(N,64,16,56,56)----------------------------------------- SpatioTemporalResLayer:(64,64,3,layer_size[0],block_type=block_type) -----------------------------outputs:(N,64,16,56,56)----------------------------------- SpatioTemporalResLayer:(64,128,3,layer_size[1],block_type=block_type,downsample=True) ------------------------------------------outputs:(N,128,8,28,28)------------------------------------------------- SpatioTemporalResLayer:(128,256,3,layer_size[2],block_type=block_type,downsample=True) ------------------------------------------outputs:(N,256,4,14,14)------------------------------------------------- SpatioTemporalResLayer:(256,512,3,layer_size[3],block_type=block_type,downsample=True) ------------------------------------------outputs:(N,512,2,7,7)------------------------------------------------- AdaptiveAvgPool3d outputs:(N,512,1,1,1) View(-1,512) outputs:(N,512) Softmax Max Index outputs:(N,1)
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值