Inflated 3D ConvNet 【I3D】

最新推荐文章于 2023-02-13 21:12:47 发布

weixin_30305735

最新推荐文章于 2023-02-13 21:12:47 发布

阅读量965

点赞数

文章标签：人工智能

原文链接：http://www.cnblogs.com/demian/p/9624491.html

版权

Two-Stream Inflated 3D ConvNet (I3D)
HMDB-51: 80.9% and UCF-101: 98.0% 在Inception-v1 Kinetics上预训练

ConvNet+LSTM：每一帧都提feature后整视频pooling，或者每一帧提feature+LSTM。缺点，忽略了时间信息，open和close door会分错。

改进C3D：比二维卷积网络有更多的参数，缺点参数量大，不能imagenet pretrain，从头训难训。input 16帧输入112*112，本文实现了C3D的一个变种，在最顶层有8个卷积层，5个pooling层和2个全联接层。模型的输入是16帧每帧112x112的片段。不同于论文中的实现是，作者在所有的卷积层和全联接层后面加入了BN层，同时将第一个pooling层的temporal stride由1变为2，来减小内存使用，增加batch的大小，这对batch normalization很重要。

双流网络：LSTM只抓住高层的卷积后的信息，底层的信息在某些例子上也非常重要，LSTM train 消耗很大。RGB帧和10个堆叠的光流帧，光流输入是2倍的光流帧(x,y水平垂直的channel)，可以有效train

新双流

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30305735

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Inflated 3D ConvNet 【I3D】

Two-Stream Inflated 3D ConvNet (I3D) HMDB-51: 80.9% and UCF-101: 98.0%在Inception-v1 Kinetics上预训练ConvNet+LSTM：每一帧都提feature后整视频pooling，或者每一帧提feature+LSTM。缺点，忽略了时间信息，open和close door会分错。改进C3D：比二维卷积...
复制链接

扫一扫