X3D: Expanding Architectures for Efficient Video Recognition个人论文笔记

最新推荐文章于 2022-12-09 20:31:17 发布

ystsaan

最新推荐文章于 2022-12-09 20:31:17 发布

阅读量2.7k

点赞数

分类专栏：视频分类动作识别深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42388228/article/details/105588919

版权

https://zhuanlan.zhihu.com/p/129279351
这篇X3D的解读写的比我早，写的挺好的，但有些细节没写上，所以由于强迫症写了这篇个人笔记

X3D为一系列的高效视频分类网络(从2D图像分类网络不断的从各个方面(multiple network axes)进行扩张如帧频网络深度等等，每次只从一个方面进行扩张)；渐进的前向扩张后是一个后向压缩从而达到一个固定复杂度的网络；X3D系列最好的网络准确率超越除IG65M预训练的CSN之外所有网络，而且只需要之前大约五分之一的计算量和参数；本文最意外的发现是网络在保持input高像素的同时保持较少通道数可以达到非常好的表现

Candidate axes:
Temporal duration：clip时长
Frame rate：帧频
Spatial resolution：长宽像素
Network width：所有conv的通道数
Bottlenect width：bottleneck 的通道数
Depth：网络深度
在这里插入图片描述
本文主要启发于之前增加网络深度，输入图片像素，通道数导致的表现的提升，还基于ML中经典的特现选取(feature selection)方法，可以从最少的一组特征开始每步增加一个引起表现增加最大的特征(forward selection)，也可以从所有特征开始，每步减少最不影响表现的特征(backward elimination)；主要基于MnasNet改变不同网络结构的EfficientNets(空间,通道数,网络深度)；与MnasNet

最低0.47元/天解锁文章

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
X3D: Expanding Architectures for Efficient Video Recognition个人论文笔记

https://zhuanlan.zhihu.com/p/129279351这篇X3D的解读写的比我早，写的挺好的，但有些细节没写上，所以由于强迫症写了这篇个人笔记X3D为一系列的高效视频分类网络(从2D图像分类网络不断的从各个方面(multiple network axes)进行扩张如帧频网络深度等等，每次只从一个方面进行扩张)；渐进的前向扩张后是一个后向压缩从而达到一个固定复杂度的网络；X...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。