Video Object Segmentation using Space-Time Memory Networks细节记录

最新推荐文章于 2024-03-22 00:04:34 发布

咆哮的阿杰

最新推荐文章于 2024-03-22 00:04:34 发布

阅读量1.1k

点赞数 2

分类专栏：视频目标分割

本文链接：https://blog.csdn.net/qq_34914551/article/details/109404366

版权

11 篇文章 6 订阅

订阅专栏

结构细节

pretrain：用SOD数据集和语义分割数据集伪造一些视频帧。具体做法，将一张静态图像，用三种affine transform得到三张图像，作为三帧，因为STM是all pair匹配，不需要按照时间顺序，所以这种预处理方式是可行的。affine transform包含：旋转，平移，缩放，裁剪
main training：在真实数据上（davis17，youtube-vos），按照时序，随机采样三帧。同时为了处理大的形象变化，采样是有间隔的，逐渐从0到25变化。同时之前的结果都用于更新memory。
随机裁剪384x384，adam with 1e-5 lr；冻结bn(除了backbone，其他位置没有bn），batch size 为4

为了节省内存和速度上的考虑，并不是所以过去帧都会加入到memory中。第一帧和前一帧是一定会被加入到memory中，同时每隔5帧就更新一次memory。注意这里的“前一帧一定加入memory”，只是临时的做法，对于下下一帧，这个“前一帧“是否使用取决于它的帧数是不是5的倍数。

采样间隔每20个epoch增长，增长数值为5，davis和youtube都是一样的.
采样间隔也是随机数，在[1， interval]之间，指的是相邻帧的间隔
每个采样视频只随机取3帧，时间顺序排列
在pretrain和maintrain都使用了random affine，但maintrain的程度更小一些
每个采样视频最多包含3个目标（前景）
maintrain中，加入youtube数据集，需要把davis的repeat time设置为5，然后使用concatdataset
random crop的做法：
Firstly, random resizing [384, shorter_side_original_size] & random crop [384, 384] is performed. Then, affine transform is performed with following parameter range.
For pre-train, rotation=[-20, 20], sheer=[-10, 10], zoom=[0.9, 1.1]
For main-train, rotation=[-15, 15], sheer=[-10, 10], zoom=[0.95, 1.05]; And color shift [0.97, 1.03]
Youtube上的越预测，在480P下预测
在maintrain环节，所采样的3帧都使用相同的affine参数
在maintrain环节，均采用dynamic方式，且detach和non-detach没有大的区别
在5*davis+youtube上，total epoch是260，且batch为4，（1个gpu一个video）