《Lucid Data Dreaming for Video Object Segmentation》论文笔记

本文探讨了一种数据增强技术——Lucid Data Dreaming,用于减少视频对象分割(VOS)模型训练所需的数据量。通过这种方法,可以将数据需求减少20到1000倍,同时保持与传统方法相似的性能。文中详细介绍了视频分割网络的设计,包括两个stream的结构,并提出了多类目标分割和考虑时序相关性的改进。Lucid Data Dreaming涉及光照变化、形变、平移、遮挡和动态背景变化等多种数据增强策略,有效提升模型的泛化能力。
摘要由CSDN通过智能技术生成

参考代码:LucidDataDreaming

1. 概述

导读:文章针对在运动场景下需要高质量表现模型(VOS)的训练过程进行了探究,一般来讲训练这些模型到较高的性能,需要较多样的数据,这就需要较多的数据量,而这篇文章中比较有意思的点是提出了一种数据合成方法lucid data dreaming,文章使用这样的数据增广方式可以将需要的数据量减少20~1000倍,但是取得的效果能够与采用原始方法进行训练得到的结果近似,是一种和具有实用价值的数据增广技术。

这篇文章的方法嵌入到视频分割算法的训练流中,其流程见下图所示:
在这里插入图片描述

2. 方法设计

2.1 视频分割网络

文章中使用的视频分割方法利用了原始的图像数据 I t I_t It,前一帧的分割结果 M t − 1 M_{t-1} Mt1,视频当前帧的光流梯度(使用FlowNet2) F t = h ( I t − 1 , I t ) F_t=h(I_{t-1},I{t}) Ft=h(It1,It),因而将上面的信息可以得到2个stream的视频分割网络结构(一个stream输入为RGB图像,一个维光流梯度),之后把这两个stream的输出经过平均输出,则对应的输出为:
M t = 0.5 ∗ f I ( I t , …   ) + 0.5 ∗ f F ( ∣ ∣ F t ∣ ∣ , …   ) M_t=0.5*f_I(I_t,\dots)+0.5*f_F(||F_t||,\dots) Mt=0.5fI(It,…<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值