VITAL: Visual Tracking via Adversarial Learning 阅读笔记

最新推荐文章于 2020-09-08 09:31:25 发布

aiqiu_gogogo

最新推荐文章于 2020-09-08 09:31:25 发布

阅读量6.9k

点赞数 11

分类专栏：目标跟踪算法文章标签： tracking deepLearning GAN

本文链接：https://blog.csdn.net/aiqiu_gogogo/article/details/79982210

版权

本文概览

本文是一篇很不错的关于目标跟踪算法的文章，收录于CVPR2018。

论文链接：https://arxiv.org/pdf/1804.04273.pdf

本文主要分析了现有的检测式跟踪的框架在模型在线学习过程中的两个弊病，即：
①、每一帧中正样本高度重叠，他们无法捕获物体丰富的变化表征；
②、正负样本之间存在严重的不均衡分布的问题；
针对上述问题，本文提出 VITAL 这个算法来解决，主要思路如下：
①、为了丰富正样本，作者采用生成式网络来随机生成mask，且这些mask作用在输入特征上来捕获目标物体的一系列变化。在对抗学习的作用下，作者的网络能够识别出在整个时序中哪一种mask保留了目标物体的鲁邦性特征；
②、在解决正负样本不均衡的问题中，本文提出了一个高阶敏感损失来减小简单负样本对于分类器训练的影响。

个人评价：本文思路明确，解决问题的方法新颖且有效，实验效果好，不愧是通过残酷的CVPR2018筛选后的精品文章！

GAN

①、既然本文是基于GAN思想的一篇文章，然而考虑到有些读者只是听说过GAN怎么怎么火，怎么怎么牛，其实并不太了解GAN是个什么东西，我就尽量简单通俗的说一下我对GAN思想的理解，用来理解这篇文章应该是够了（我也是现学现卖~为了看懂本文，特意去看了一下什么是GAN，已经懂GAN的大神请自动飘过这一段~~~）。

②、什么是GAN？
首先，假设我们有一个非常先进的测谎仪，这个测谎仪很强大，我们一说谎，它就能“哔~”一声，然而它不是完美的，他也是有漏洞的，只是我们难以发现。现在，我们的目标是做一个“说谎仪”，虽然我们本人没办法骗过测谎仪，但是我们可以通过训练一个说谎仪来说谎，并且希望这个说谎仪的谎话能骗过测谎仪就OK了。既然测谎仪很强大，那么我们在训练过程中就使用测谎仪，说谎仪没骗过测谎仪我们就fine-tune说谎仪，直到它战胜了测谎仪为止。
上述说谎仪和测谎仪博弈的过程就是GAN的主要思想。GAN有两个组件，分别为：生成器和判别器，这里，生成器就相当于刚刚说的说谎仪，判别器就相当于测谎仪。我们训练GAN的主要目的就是想在判别器足够强大的前提下，训练生成器让判别器认为生成器生成的样本就是“真”样本，也就是让说谎仪说一句谎话，希望测谎仪误认为这是真话，那么我们认为这个生成器（说谎仪）就训练成功或者说足够强大了。

③、一般GAN的数学表达：
这里写图片描述（不要一看到公式就怂哈！放轻松，不复杂的~）
符号解释： $G$ 代表一个生成器， $z$ 是一个服从 $P_{noise}\left ( z \right )$ 分布的随机噪声，自然 $G\left ( z \right )$ 代表生成器 $G$ 对随机噪声 $z$ 的处理，D是一个判别器， $x$ 是一个服从 $P_{data}\left ( x \right )$ 分布的真实样本；
解释：上述公式是一个损失函数，如果觉得 $\min_{G}\max_{D}$ 难以理解，那我们就先去掉 $\min_{G}$ ，当只有 $\max_{D}$ 的时候，上式可以理解为我要得到一个判别器 $D$ 使得后面那一坨最大，后面那一坨什么时候最大呢？当然是当 $D\left ( x \right )$ 和 $D\left ( G\left ( z \right ) \right )$ 差异最大的时候，所以综上所述，当只有 maxD