论文阅读笔记-learning multi-domain convolutional neural networks for visual tracking

论文阅读笔记-learning multi-domain convolutional neural networks for visual tracking

VOT 2015挑战赛的冠军论文,16年又发表在CVPR上,性能很强大,几乎可以称得上是目前跟踪性能最好的一种算法。
铺垫完了之后,说一下该算法的优缺点:
优点嘛,当然是跟的准,基本上形变啊,快速移动啊,光照啊,低分辨率啊,遮挡啊,这些都不是问题;
不过缺点也很明显,那就是慢!官方数据说是一秒一帧就已经很慢了,而在第一帧开始之时单是网络再训练就得十几秒,每隔十帧的网络微调也得花费两倍的时间,中间的九帧倒是差不多一秒一帧。
不过性能好,再慢也忍了,接下来就详述一下这篇论文的内容。

首先,作者抛出了一个引子,说基于分类的网络不适用于做目标跟踪,原因在于,同一个object在不同的序列里可能是目标,也有可能只是一个路人甲,而分类的话不会区分这些;此外,之前那些算法都是为所有的序列学习一个统一的分类器,没有具体区分目标到底是人是鬼,啊不,是人是车,作者觉得这怎么可以呢,我们应该针对每一个序列的目标单独训练其分类器,大家互不影响,这样才对嘛。但是呢,作者又考虑到底层的很多特征是通用的,也是可以互利互惠的,因此,灵机一动,设计出了下图这样的网络结构:


这个网络结构算是比较符合作者的心意了,前面这些层叫shared layers,大家一起公用提提特征啥的,最后一层呢是specific layer,这个就是本文的大特色了,论文的题目multi-domain说的就是这里。这里的特别之处在于,针对每一个训练序列,作者都为它单独分了一个支路,有多少个序列,就分多少支路,这样就实现了作者针对每一个序列单独训练分类器的设想。每一个fc6的分枝都是一个二分类器,来针对这个序列分别给出正负样本的概率得分,是不是听起来就很牛逼的样子。
接着来说说训练网络的一些细节问题,为了在第三个卷积层获得3*3的特征,作者反向推算出输入的图像大小应该是107*107,,所以所有的输入图像大小都是107*107哦;为了有个好的初始化,迁移学习大法好,作者对于前三层卷积层就直接迁移使用了VGG-M训练好的参数,然后用很小的学习率更新,后面全连接层用的随机初始化,学习率是前三层的十倍倍乘。至于输入图像,并不是原图像,而是crop出的部分图像,也就是样本,然后resize到固定大小107*107,再送入网络。
另外一点要说的是,作者到底是如何摆放这些序列的训练顺序的,如果你说一个接一个,一个训练完了再训练下一个呗,那就太naive了,当初naive的我就这样试着训练了一个自以为会很牛逼,结果惨不忍睹的网络,会对最后一个序列过拟合啊亲!  聪明的作者当然也考虑到了这个问题,所以,他在训练的时候,一个序列只训练一个batch,就换下个序列,然后外面用个大循环,多循环几回就把每个序列都训练到位了,是不是很机智。
好,搞懂这些之后,就开始网络训练了,大概个把小时以后,训练过程结束。训练结束也就意味着我们即将告别这些形形色色的fc6各分支同胞们,感谢他们在训练过程中做出的贡献,但是由于这是针对每个序列特有的分类器,而未来的行程中他们将不再有什么价值,所以,这些分支将全被拆掉。取而代之的是一个全新的单个的fc6,在跟踪阶段,我们将会用第一帧的正负样本来对这个新的fc6进行训练,使之成为对当前目标所特有的分类器。与此同时,前三个卷积层参数会冻结,来保留低层通用特征,不进行参数更新,而fc4和fc5会有微微的更新,以适应新序列新目标。
跟踪阶段里,作者也是使用了很多的技巧,至于详情有机会再补喽。

主动学习对于卷积神经网络的核心集方法是一种重要的优化技术。卷积神经网络是一种用于图像和视频处理的深度学习模型,它具有很强的特征提取和分类能力。然而,使用传统的训练方法来训练卷积神经网络需要大量的标记数据,而这些数据的标记通常由人工专家完成,费时费力且容易出错。 核心集方法是一种主动学习策略,旨在有效利用有限的标记数据。它通过选择一小部分最具代表性的样本构建核心集,然后利用这些样本进行训练和优化模型。在训练过程中,核心集方法会根据当前模型的不确定性选择性地请求一些标记样本进行标记,以进一步优化模型。 使用核心集方法的主动学习对于训练卷积神经网络具有多个优点。首先,它可以大大减少标记数据的需求量。相比于传统的批量训练方法,只需标记极少量的样本,就能达到较好的分类性能。其次,核心集方法能够自适应地选择样本,从而使训练数据更具代表性,提高模型的泛化能力。 核心集方法还能够通过选择具有较高不确定性的样本,自动地识别出难以分类或易混淆的样本,从而提高了训练的效果。此外,主动学习可以应用于在线学习任务中以及在标记数据有限的情况下,进一步提高卷积神经网络的应用范围和性能。 综上所述,主动学习的核心集方法是一种有效的优化技术,可以在卷积神经网络的训练过程中减少标记数据的需求量,并提高模型的泛化能力和分类性能。它为卷积神经网络的应用提供了更多的可能性,并在图像和视频处理领域具有重要的实际应用价值。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值