https://zhuanlan.zhihu.com/p/129279351
这篇X3D的解读写的比我早,写的挺好的,但有些细节没写上,所以由于强迫症写了这篇个人笔记
X3D为一系列的高效视频分类网络(从2D图像分类网络不断的从各个方面(multiple network axes)进行扩张如帧频网络深度等等,每次只从一个方面进行扩张);渐进的前向扩张后是一个后向压缩从而达到一个固定复杂度的网络;X3D系列最好的网络准确率超越除IG65M预训练的CSN之外所有网络,而且只需要之前大约五分之一的计算量和参数;本文最意外的发现是网络在保持input高像素的同时保持较少通道数可以达到非常好的表现
Candidate axes:
Temporal duration:clip时长
Frame rate:帧频
Spatial resolution:长宽像素
Network width:所有conv的通道数
Bottlenect width:bottleneck 的通道数
Depth:网络深度
本文主要启发于之前增加网络深度,输入图片像素,通道数导致的表现的提升,还基于ML中经典的特现选取(feature selection)方法,可以从最少的一组特征开始每步增加一个引起表现增加最大的特征(forward selection),也可以从所有特征开始,每步减少最不影响表现的特征(backward elimination);主要基于MnasNet改变不同网络结构的EfficientNets(空间,通道数,网络深度);与MnasNet