X3D: Expanding Architectures for Efficient Video Recognition个人论文笔记

https://zhuanlan.zhihu.com/p/129279351
这篇X3D的解读写的比我早,写的挺好的,但有些细节没写上,所以由于强迫症写了这篇个人笔记

X3D为一系列的高效视频分类网络(从2D图像分类网络不断的从各个方面(multiple network axes)进行扩张如帧频网络深度等等,每次只从一个方面进行扩张);渐进的前向扩张后是一个后向压缩从而达到一个固定复杂度的网络;X3D系列最好的网络准确率超越除IG65M预训练的CSN之外所有网络,而且只需要之前大约五分之一的计算量和参数;本文最意外的发现是网络在保持input高像素的同时保持较少通道数可以达到非常好的表现

Candidate axes:
Temporal duration:clip时长
Frame rate:帧频
Spatial resolution:长宽像素
Network width:所有conv的通道数
Bottlenect width:bottleneck 的通道数
Depth:网络深度
在这里插入图片描述
本文主要启发于之前增加网络深度,输入图片像素,通道数导致的表现的提升,还基于ML中经典的特现选取(feature selection)方法,可以从最少的一组特征开始每步增加一个引起表现增加最大的特征(forward selection),也可以从所有特征开始,每步减少最不影响表现的特征(backward elimination);主要基于MnasNet改变不同网络结构的EfficientNets(空间,通道数,网络深度);与MnasNet

  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值