2019 CVPR论文调研 [1]

最新推荐文章于 2022-07-28 14:26:58 发布

mobai-ch

最新推荐文章于 2022-07-28 14:26:58 发布

阅读量431

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_31622541/article/details/104133759

版权

机器学习专栏收录该内容

15 篇文章 0 订阅

订阅专栏

这周，我读了一些文章，但是基本上是以读摘要和介绍为主的，所以只能算得上是一种对当前趋势的调研，调研的文章主题主要是：Few-shot Tracking 以及 Unsupervised learning，最近瘟疫流行，在家里也做不了其他的，主要就是了解趋势以及补充一些数学知识了，在搞定PRML，花书和CMU的那套Lecture后，应该会出一下PRML的课后习题每周更新(这个如果有私信的话，我考虑下要不要在B站发下习题视频，应该会和matrix cookbook一起讲吧，感觉是个大坑)，不说闲话，先说下这几片论文。

接下来将以题目；文章提出的问题是什么，为什么，怎么做这几点来阐述每一篇文章，最后附上文章链接，有代码的话也会附在最后面，没有代码的，可以根据作者信息去向作者礼貌点要代码。

关键词：Few-shot ; Tracking ; Unsupervised learning;

Unsupervised learning of action classes with continuous temporal embedding

问题：

如果我们给一个没有经过任何修剪的视频(视频中间没有忽然间切换)，我们能不能通过无监督学习的方法识别出视频当中的动作，并且成功的给视频分片。（当然对于动作的定义还是人给的）

为什么：

这些年来视频中的动作识别已经相当成功了，但是高质量的动作识别方法全部都是基于监督学习的，这就对数据集要求很高，如果出现了一些迷之动作，可能根本没法分片。而且对于这一类数据集的标注也是相当的麻烦，所以我们要发展一种无监督的方法来实现无监督的动作识别。
有时候，有些动作本质上是还没有被人类赋予过含义的，尤其是关于人类行为，神经科学和医学研究中发现的东西，所以在我们确认这些行为是否有意义和价值之前，我们需要先把它作为一种动作给标注出来。

怎么做：

作者提出了一种框架，能够实现对时间连续的帧来进行特征提取。
作者提出了一种方法，这种方法能够将之前提出的基于帧的特征所构成的簇，并由此将一个视频解码成这样一个个排好序的簇。
最后就是作者在多个数据集上做了相关的实验，比如Breakfast dataset, YouTube Instructions, and the 50Salads dataset。

文章链接： https://arxiv.org/abs/1904.04189

代码： https://github.com/annusha/unsup_temp_embed

注：其实作者的代码感觉有点难以理解，如果有兴趣阅读过的同志，希望能在分享之后@我一下，十分感谢🙏。

Finding Task-Relevant Features for Few-Shot Learning by Category Traversal

问题：

如果我们关于某个类只有很少的样本图片，我们要怎么样训练这个类以实现较高的识别准确率，典型的few-shot问题，关于few-shot问题的定义，可以看我之前的文章解读 https://blog.csdn.net/qq_31622541/article/details/104086787。

为什么：

当前大部分few-shot方法本质上都是度量学习，会进行测试集中的样本与训练集中样本的特征相似度对比，从而实现无监督。但是这种做法又一个问题，就是会把每个类全部都独立开来，而不从这个识别任务角度来进行全局的度量。
大部分任务在使用特征对比的时候，会把不怎么相关的维度也用起来，所以会导致整体精确度的下降。

怎么做：

作者在以前的网络结构的基础上提出了一种Category traversal model(CTM)模组，这个模组有两个部分组成，其中一个叫做concentrater，用来获取每个类中不同样本的共性并将其作为嵌入向量输出，而另外一个叫做projector，作用是获取concentrater的输出，并找出各个类之间的独特性并输出。
作者将CTM作为一个可以抽取全局特征的模组提出，并指出可以作为其他算法的一个模块，使得提取出的高维特征更加有效。

文章链接： https://arxiv.org/pdf/1905.11116.pdf

代码： https://github.com/Clarifai/few-shot-ctm

Large-Scale Few-Shot Learning: Knowledge Transfer With Class Hierarchy

问题：

当前的few-shot方法尝试以各种方式来降低所需要的训练集样本数，因为对于很多类而言，就算是社交媒体上的样本也不足以满足需求，所以怎么样才能做出一种接近与zero-shot的方法，而且还能在大范围的数据中使用呢？

为什么：

当前可用于识别的类太多，但是大部分的类的数据却在社交网络中都很难进行收集。
我们用来预训练从而获得大量先验知识的类往往和我们要用来识别的类之间没有交叉。
当前的FSL(few-shot-learning)的方法，如果我们让类的数量变得足够多，而类中的样本足够少，效果也就和最近邻(NN)算法一样。

怎么做：

作者提出了一种模型，通过类的层次结构来对从图片中抽取的特征来进行一层层的共享，比如A,B有类似的特征，C的深度特征不同，那就通过树形结构把A B分到左边，把C给分到右边，这样子叶子节点以上的那些节点就变成了一种共享属性的表示了，而这种想法则是源于作者认为A，B会有通用的先验知识。
作者提出了一种对有极少样本的类进行大范围学习的方式，主要就是探索那些类与源类之间所拥有的共同知识的方法，在这之前作者对比了大量的方法，确定出来了大部分的方法的劣势就在于对于样本过少的情况无法进行合理的解决，而作者的方法却能做到zero-shot并且达到了十分突出的效果。

论文地址：http://openaccess.thecvf.com/content_CVPR_2019/papers/Li_Large-Scale_Few-Shot_Learning_Knowledge_Transfer_With_Class_Hierarchy_CVPR_2019_paper.pdf

SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks

问题：

当前基于siamese net的跟踪器和最先进的算法相比较还是在精度上有一定的差距，他们无法很好的利用从网络中所提取特征的优势，那我们如何充分利用深度网络中的信息来进行目标跟踪？

为什么：

作者观察到当前有很多在分类问题中有比较好的效果的基础网络并没有被使用，在分析之后，作者发现主要的问题在于这些网络缺乏比较严格的空间不变性。由于目标的变化可能发生在任何一个区域，所以保证时空不变性很重要，也正是因为这样，很多时候，大家都会选择AlexNet。
目标跟踪现在在大量领域都有使用，不管是视觉监控，人机交互还是增强现实上，所以纵使方法被不断的提出，大家还是在不断的跟进这个方向，因为巨大的应用价值与应用前景

怎么做：

作者构造了一种新的对Resnet的采样方法，使得resnet能够打破束缚，拥有空间不变性。
作者提出了一种基于层的互相关计算方法，会在不同的层抽取特征然后直接进行互相关，最后把结果向后计算。
作者提出了一种多层互相关的计算，其中相似度图每层对应着不同的含义。

文章链接： https://arxiv.org/pdf/1812.11703.pdf

代码： http://bo-li.info/SiamRPN++

另外还有三篇文章，方法不同，但是各有各的妙处，如果有时间，下次再将相关总结更新发到博客上。

Target-Aware Deep Tracking(Chao Ma大神去年的第二篇文章) 文章链接： https://arxiv.org/pdf/1904.01772.pdf

Multiview 2D/3D Rigid Registration via a Point-Of-Interest Network for Tracking and Triangulation(当初直接搜索了关键词，后来发现是一篇通过多X光来进行人体骨骼拍摄，后面通过回归与2D/3D映射的方式去重构出骨骼的医疗技术论文，还是比较有意思的，有兴趣的可以看下去）。文章链接： http://openaccess.thecvf.com/content_CVPR_2019/papers/Liao_Multiview_2D3D_Rigid_Registration_via_a_Point-Of-Interest_Network_for_Tracking_CVPR_2019_paper.pdf

Unsupervised Part-Based Disentangling of Object Shape and Appearance(这篇论文讲述了如何以无监督的手段通过学习目标的组成部分，把一类目标的外观和形状分离出来，是一种十分实用的技术，并提供了源码）。文章链接： https://arxiv.org/pdf/1903.06946.pdf